实习生VLA-M1

用于通用机器人政策的空间引导视觉-语言-动作框架。上海人工智能实验室

概述

InternVLA-M1 使用两阶段流程：(1) 对 230 万个样本进行空间接地预训练，以确定“在哪里行动”，(2) 空间引导行动后训练，以确定“如何行动”。模块化、可扩展、双重监管。

基准测试

谷歌机器人 71.7% (WidowX), 76.0% (VM), 80.7% (VA)
LIBERO 95.9% 成功
在 SimplerEnv 上 +14.6%，在具有合成协同训练的看不见的物体上 +20.6%

官方链接

internrobotics.github.io/internvla-m1 — 项目现场
github.com/InternRobotics/InternVLA-M1 — 代码（带有）
拥抱脸：InternRobotics — 模型和数据集

引文

请参阅项目站点以获取 BibTeX 和论文参考。