← Glossário

VLA & VLM

Visão-Linguagem-Ação e Modelos de Visão-Linguagem — controle de robô condicionado pela linguagem.

O que são VLA e VLM?

VLM (Modelo Visão-Linguagem) — Modelos multimodais que entendem tanto imagens quanto texto. Usados para legendagem, VQA e ancoragem.

VLA (Visão-Linguagem-Ação) — VLMs estendidos para gerar ações de robôs. Recebem imagens + instruções em linguagem, geram comandos de controle (por exemplo, posições de juntas, garra). Permitem controle do tipo "pegue o bloco vermelho".

Modelos Chave

  • OpenVLA — VLA de código aberto com demonstrações 7B, 970K
  • RT-2 / RT-X — Família VLA do Google
  • Octo — Política de difusão com condicionamento de linguagem
  • RoboFlamingo — VLM baseado em OpenFlamingo para robôs

Recursos Relacionados