VLA & VLM
Visão-Linguagem-Ação e Modelos de Visão-Linguagem — controle de robô condicionado pela linguagem.
O que são VLA e VLM?
VLM (Modelo Visão-Linguagem) — Modelos multimodais que entendem tanto imagens quanto texto. Usados para legendagem, VQA e ancoragem.
VLA (Visão-Linguagem-Ação) — VLMs estendidos para gerar ações de robôs. Recebem imagens + instruções em linguagem, geram comandos de controle (por exemplo, posições de juntas, garra). Permitem controle do tipo "pegue o bloco vermelho".
Modelos Chave
- OpenVLA — VLA de código aberto com demonstrações 7B, 970K
- RT-2 / RT-X — Família VLA do Google
- Octo — Política de difusão com condicionamento de linguagem
- RoboFlamingo — VLM baseado em OpenFlamingo para robôs
Recursos Relacionados
- Modelos VLA & VLM de Código Aberto — Catálogo completo com links
- Conjuntos de dados — Dados de manipulação rotulados por linguagem