BridgeVLA

Eingabe-Ausgabe-Ausrichtung für effizientes 3D-Manipulationslernen mit Vision-Language-Modellen.

Überblick

BridgeVLA trainiert ein VLM-Backbone vorab, um 2D-Bilder als Eingabe zu nehmen und 2D-Heatmaps als Ausgabe zu erzeugen, und führt dann eine Feinabstimmung durch, während Punktwolken in Bilder mit mehreren Ansichten projiziert werden. Ermöglicht eine effiziente 3D-Manipulation mit minimalen Daten.

Benchmarks

RLBench 88,2 % (von 81,4 %)
COLOSSEUM 64.0%
10+ Aufgaben 95,4 % mit nur 3 Trajektorien pro Aufgabe

Offizielle Links

bridgevla.github.io — Projektseite
OpenReview – NeurIPS 2025-Papier

Zitat

NeurIPS 2025. Siehe die Projektseite für BibTeX.