BridgeVLA

Alineación de Entrada-Salida para un Aprendizaje Eficiente de Manipulación 3D con Modelos de Visión-Lenguaje.

Resumen

BridgeVLA preentrena un backbone de VLM para tomar imágenes 2D como entrada y producir mapas de calor 2D como salida, luego ajusta finamente mientras proyecta nubes de puntos en imágenes de múltiples vistas. Permite una manipulación 3D eficiente con datos mínimos.

Referencias

RLBench 88.2% (aumentó del 81.4%)
COLOSSEUM 64.0%
Más de 10 tareas 95.4% con solo 3 trayectorias por tarea

Enlaces Oficiales

bridgevla.github.io — Sitio del proyecto
OpenReview — Artículo de NeurIPS 2025

cita

NeurIPS 2025. Consulte el sitio del proyecto para BibTeX.