インターンVLA-M1
ジェネラリストロボット政策のための空間誘導型視覚・言語・行動フレームワーク。 上海AI研究所
概要
InternVLA-M1 は 2 段階のパイプラインを使用します: (1) 「どこで行動するか」を決定するための 230 万サンプルでの空間グラウンディングの事前トレーニング、(2) 「どのように行動するか」についての空間誘導アクションの事後トレーニング。 モジュール式で拡張可能、二重監視機能付き。
ベンチマーク
- グーグルロボット 71.7% (WidowX)、76.0% (VM)、80.7% (VA)
- LIBERO 95.9% 成功
- SimplerEnv で +14.6%、合成共同トレーニングを使用した目に見えないオブジェクトで +20.6%
公式リンク
- internrobotics.github.io/internvla-m1 — プロジェクトサイト
- github.com/InternRobotics/InternVLA-M1 — コード (あり)
- 顔を抱きしめる: InternRobotics — モデルとデータセット
引用
BibTeX および論文のリファレンスについては、プロジェクト サイトを参照してください。