BridgeVLA

Alinhamento de Entrada-Saída para Aprendizado Eficiente de Manipulação 3D com Modelos de Visão-Linguagem.

Visão Geral

O BridgeVLA pré-treina uma estrutura de VLM para aceitar imagens 2D como entrada e produzir mapas de calor 2D como saída, depois ajusta enquanto projeta nuvens de pontos em imagens de múltiplas vistas. Permite manipulação 3D eficiente com dados mínimos.

Referências

RLBench 88,2% (aumentou de 81,4%)
COLOSSEUM 64.0%
10+ tarefas 95,4% com apenas 3 trajetórias por tarefa

Links Oficiais

bridgevla.github.io — Site do projeto
OpenReview — Artigo NeurIPS 2025

Citação

NeurIPS 2025. Veja o site do projeto para BibTeX.