VLA & VLM

Visão-Linguagem-Ação e Modelos de Visão-Linguagem — controle de robô condicionado pela linguagem.

O que são VLA e VLM?

VLM (Modelo Visão-Linguagem) — Modelos multimodais que entendem tanto imagens quanto texto. Usados para legendagem, VQA e ancoragem.

VLA (Visão-Linguagem-Ação) — VLMs estendidos para gerar ações de robôs. Recebem imagens + instruções em linguagem, geram comandos de controle (por exemplo, posições de juntas, garra). Permitem controle do tipo "pegue o bloco vermelho".

Modelos Chave

OpenVLA — VLA de código aberto com demonstrações 7B, 970K
RT-2 / RT-X — Família VLA do Google
Octo — Política de difusão com condicionamento de linguagem
RoboFlamingo — VLM baseado em OpenFlamingo para robôs

Recursos Relacionados

Modelos VLA & VLM de Código Aberto — Catálogo completo com links
Conjuntos de dados — Dados de manipulação rotulados por linguagem