ブリッジVLA

視覚言語モデルを使用した効率的な 3D 操作学習のための入出力調整。

概要

BridgeVLA は、2D 画像を入力として受け取り、2D ヒートマップを出力として生成するように VLM バックボーンを事前トレーニングし、点群をマルチビュー画像に投影しながら微調整します。最小限のデータで効率的な 3D 操作が可能になります。

ベンチマーク

RLBベンチ 88.2% (81.4%から増加)
COLOSSEUM 64.0%
10 個以上のタスク タスクあたり 3 つの軌道のみで 95.4%

公式リンク

bridgevla.github.io — プロジェクトサイト
オープンレビュー — NeurIPS 2025 論文

引用

NeurIPS 2025。BibTeX についてはプロジェクトサイトを参照してください。