BridgeVLA
Alinhamento de Entrada-Saída para Aprendizado Eficiente de Manipulação 3D com Modelos de Visão-Linguagem.
Visão Geral
O BridgeVLA pré-treina uma estrutura de VLM para aceitar imagens 2D como entrada e produzir mapas de calor 2D como saída, depois ajusta enquanto projeta nuvens de pontos em imagens de múltiplas vistas. Permite manipulação 3D eficiente com dados mínimos.
Referências
- RLBench 88,2% (aumentou de 81,4%)
- COLOSSEUM 64.0%
- 10+ tarefas 95,4% com apenas 3 trajetórias por tarefa
Links Oficiais
- bridgevla.github.io — Site do projeto
- OpenReview — Artigo NeurIPS 2025
Citação
NeurIPS 2025. Veja o site do projeto para BibTeX.