← Modelle

BridgeVLA

Eingabe-Ausgabe-Ausrichtung für effizientes 3D-Manipulationslernen mit Vision-Language-Modellen.

Überblick

BridgeVLA trainiert ein VLM-Backbone vorab, um 2D-Bilder als Eingabe zu nehmen und 2D-Heatmaps als Ausgabe zu erzeugen, und führt dann eine Feinabstimmung durch, während Punktwolken in Bilder mit mehreren Ansichten projiziert werden. Ermöglicht eine effiziente 3D-Manipulation mit minimalen Daten.

Benchmarks

  • RLBench 88,2 % (von 81,4 %)
  • COLOSSEUM 64.0%
  • 10+ Aufgaben 95,4 % mit nur 3 Trajektorien pro Aufgabe

Offizielle Links

Zitat

NeurIPS 2025. Siehe die Projektseite für BibTeX.