← モデル

インターンVLA-M1

ジェネラリストロボット政策のための空間誘導型視覚・言語・行動フレームワーク。 上海AI研究所

概要

InternVLA-M1 は 2 段階のパイプラインを使用します: (1) 「どこで行動するか」を決定するための 230 万サンプルでの空間グラウンディングの事前トレーニング、(2) 「どのように行動するか」についての空間誘導アクションの事後トレーニング。 モジュール式で拡張可能、二重監視機能付き。

ベンチマーク

  • グーグルロボット 71.7% (WidowX)、76.0% (VM)、80.7% (VA)
  • LIBERO 95.9% 成功
  • SimplerEnv で +14.6%、合成共同トレーニングを使用した目に見えないオブジェクトで +20.6%

公式リンク

引用

BibTeX および論文のリファレンスについては、プロジェクト サイトを参照してください。