← Modelos

BridgeVLA

Alinhamento de Entrada-Saída para Aprendizado Eficiente de Manipulação 3D com Modelos de Visão-Linguagem.

Visão Geral

O BridgeVLA pré-treina uma estrutura de VLM para aceitar imagens 2D como entrada e produzir mapas de calor 2D como saída, depois ajusta enquanto projeta nuvens de pontos em imagens de múltiplas vistas. Permite manipulação 3D eficiente com dados mínimos.

Referências

  • RLBench 88,2% (aumentou de 81,4%)
  • COLOSSEUM 64.0%
  • 10+ tarefas 95,4% com apenas 3 trajetórias por tarefa

Links Oficiais

Citação

NeurIPS 2025. Veja o site do projeto para BibTeX.