实习生VLA-M1
用于通用机器人政策的空间引导视觉-语言-动作框架。 上海人工智能实验室
概述
InternVLA-M1 使用两阶段流程:(1) 对 230 万个样本进行空间接地预训练,以确定“在哪里行动”,(2) 空间引导行动后训练,以确定“如何行动”。 模块化、可扩展、双重监管。
基准测试
- 谷歌机器人 71.7% (WidowX), 76.0% (VM), 80.7% (VA)
- LIBERO 95.9% 成功
- 在 SimplerEnv 上 +14.6%,在具有合成协同训练的看不见的物体上 +20.6%
官方链接
- internrobotics.github.io/internvla-m1 — 项目现场
- github.com/InternRobotics/InternVLA-M1 — 代码(带有)
- 拥抱脸:InternRobotics — 模型和数据集
引文
请参阅项目站点以获取 BibTeX 和论文参考。