← Modelos

BridgeVLA

Alineación de Entrada-Salida para un Aprendizaje Eficiente de Manipulación 3D con Modelos de Visión-Lenguaje.

Resumen

BridgeVLA preentrena un backbone de VLM para tomar imágenes 2D como entrada y producir mapas de calor 2D como salida, luego ajusta finamente mientras proyecta nubes de puntos en imágenes de múltiples vistas. Permite una manipulación 3D eficiente con datos mínimos.

Referencias

  • RLBench 88.2% (aumentó del 81.4%)
  • COLOSSEUM 64.0%
  • Más de 10 tareas 95.4% con solo 3 trayectorias por tarea

Enlaces Oficiales

cita

NeurIPS 2025. Consulte el sitio del proyecto para BibTeX.