ブリッジVLA
視覚言語モデルを使用した効率的な 3D 操作学習のための入出力調整。
概要
BridgeVLA は、2D 画像を入力として受け取り、2D ヒートマップを出力として生成するように VLM バックボーンを事前トレーニングし、点群をマルチビュー画像に投影しながら微調整します。 最小限のデータで効率的な 3D 操作が可能になります。
ベンチマーク
- RLBベンチ 88.2% (81.4%から増加)
- COLOSSEUM 64.0%
- 10 個以上のタスク タスクあたり 3 つの軌道のみで 95.4%
公式リンク
- bridgevla.github.io — プロジェクトサイト
- オープンレビュー — NeurIPS 2025 論文
引用
NeurIPS 2025。BibTeX についてはプロジェクト サイトを参照してください。