← 模型

实习生VLA-M1

用于通用机器人政策的空间引导视觉-语言-动作框架。 上海人工智能实验室

概述

InternVLA-M1 使用两阶段流程:(1) 对 230 万个样本进行空间接地预训练,以确定“在哪里行动”,(2) 空间引导行动后训练,以确定“如何行动”。 模块化、可扩展、双重监管。

基准测试

  • 谷歌机器人 71.7% (WidowX), 76.0% (VM), 80.7% (VA)
  • LIBERO 95.9% 成功
  • 在 SimplerEnv 上 +14.6%,在具有合成协同训练的看不见的物体上 +20.6%

官方链接

引文

请参阅项目站点以获取 BibTeX 和论文参考。