BridgeVLA
Eingabe-Ausgabe-Ausrichtung für effizientes 3D-Manipulationslernen mit Vision-Language-Modellen.
Überblick
BridgeVLA trainiert ein VLM-Backbone vorab, um 2D-Bilder als Eingabe zu nehmen und 2D-Heatmaps als Ausgabe zu erzeugen, und führt dann eine Feinabstimmung durch, während Punktwolken in Bilder mit mehreren Ansichten projiziert werden. Ermöglicht eine effiziente 3D-Manipulation mit minimalen Daten.
Benchmarks
- RLBench 88,2 % (von 81,4 %)
- COLOSSEUM 64.0%
- 10+ Aufgaben 95,4 % mit nur 3 Trajektorien pro Aufgabe
Offizielle Links
- bridgevla.github.io — Projektseite
- OpenReview – NeurIPS 2025-Papier
Zitat
NeurIPS 2025. Siehe die Projektseite für BibTeX.