BridgeVLA
Alineación de Entrada-Salida para un Aprendizaje Eficiente de Manipulación 3D con Modelos de Visión-Lenguaje.
Resumen
BridgeVLA preentrena un backbone de VLM para tomar imágenes 2D como entrada y producir mapas de calor 2D como salida, luego ajusta finamente mientras proyecta nubes de puntos en imágenes de múltiples vistas. Permite una manipulación 3D eficiente con datos mínimos.
Referencias
- RLBench 88.2% (aumentó del 81.4%)
- COLOSSEUM 64.0%
- Más de 10 tareas 95.4% con solo 3 trayectorias por tarea
Enlaces Oficiales
- bridgevla.github.io — Sitio del proyecto
- OpenReview — Artículo de NeurIPS 2025
cita
NeurIPS 2025. Consulte el sitio del proyecto para BibTeX.