← モデル

ブリッジVLA

視覚言語モデルを使用した効率的な 3D 操作学習のための入出力調整。

概要

BridgeVLA は、2D 画像を入力として受け取り、2D ヒートマップを出力として生成するように VLM バックボーンを事前トレーニングし、点群をマルチビュー画像に投影しながら微調整します。 最小限のデータで効率的な 3D 操作が可能になります。

ベンチマーク

  • RLBベンチ 88.2% (81.4%から増加)
  • COLOSSEUM 64.0%
  • 10 個以上のタスク タスクあたり 3 つの軌道のみで 95.4%

公式リンク

引用

NeurIPS 2025。BibTeX についてはプロジェクト サイトを参照してください。