インターンVLA-M1

ジェネラリストロボット政策のための空間誘導型視覚・言語・行動フレームワーク。上海AI研究所

概要

InternVLA-M1 は 2 段階のパイプラインを使用します: (1) 「どこで行動するか」を決定するための 230 万サンプルでの空間グラウンディングの事前トレーニング、(2) 「どのように行動するか」についての空間誘導アクションの事後トレーニング。モジュール式で拡張可能、二重監視機能付き。

ベンチマーク

グーグルロボット 71.7% (WidowX)、76.0% (VM)、80.7% (VA)
LIBERO 95.9% 成功
SimplerEnv で +14.6%、合成共同トレーニングを使用した目に見えないオブジェクトで +20.6%

公式リンク

internrobotics.github.io/internvla-m1 — プロジェクトサイト
github.com/InternRobotics/InternVLA-M1 — コード (あり)
顔を抱きしめる: InternRobotics — モデルとデータセット

引用

BibTeX および論文のリファレンスについては、プロジェクトサイトを参照してください。