Modelos de Visão-Linguagem-Ação Explicados: Como os VLAs Potencializam Robôs Modernos

Modelos de visão-linguagem-ação são o equivalente robótico do GPT-4 — redes neurais massivas e pré-treinadas que podem ser ajustadas para realizar uma ampla gama de tarefas físicas. Compreender o que são os VLAs, como funcionam e quando usá-los é agora um conhecimento essencial para qualquer praticante sério de robótica.

O que é um Modelo de Visão-Linguagem-Ação?

Um modelo de visão-linguagem-ação (VLA) é uma rede neural que recebe observações visuais (imagens de câmera) e instruções em linguagem natural como entrada, e produz ações de robô — velocidades das juntas, poses do efetor final ou comandos de garra. A parte "visão-linguagem" refere-se à estrutura pré-treinada: esses modelos herdam sua compreensão visual e semântica de um pré-treinamento em larga escala na internet com pares de imagem-texto, muito parecido com o CLIP ou um modelo de visão-linguagem (VLM). A parte "ação" é a cabeça de ajuste fino treinada em dados de demonstração de robô.

A percepção central é que o pré-treinamento em dados da internet fornece à estrutura do robô uma rica representação do mundo físico — o que são os objetos, como se relacionam espacialmente e o que a linguagem significa — antes de ter visto uma demonstração de robô. O ajuste fino então adapta essa representação à incorporação do robô e às tarefas-alvo. Como a estrutura já entende "pegue a xícara azul" ou "abra a gaveta à esquerda", o modelo pode generalizar para objetos novos e formulações de tarefas com muito menos demonstrações do que uma política treinada do zero.

RT-2: O Primeiro VLA em Grande Escala

RT-2 (Robotics Transformer 2), lançado pelo Google DeepMind em 2023, foi a primeira demonstração de que escalar um modelo de visão-linguagem para controle de robô produziu capacidades qualitativamente novas. O RT-2 co-ajustou um modelo de visão-linguagem PaLI-X em dados da web e trajetórias de robô simultaneamente, produzindo uma política que poderia seguir instruções novas, raciocinar sobre propriedades de objetos e generalizar para objetos que nunca tinha visto em demonstrações de robô — apenas na internet.

O RT-2 mostrou que os VLAs poderiam realizar raciocínio em cadeia: ao ser solicitado a pegar "algo que você pode usar para limpar um derramamento", o modelo identificou uma esponja na cena sem nunca ter sido explicitamente instruído a associar esponjas com limpeza. Essa capacidade emergente — generalização semântica além da distribuição de treinamento — é o que torna os VLAs qualitativamente diferentes das políticas clássicas de aprendizado por imitação. O trade-off é computação: o RT-2 opera em um modelo com 55 bilhões de parâmetros, exigindo uma infraestrutura significativa para ser implantado.

OpenVLA: ajuste fino de VLA de código aberto

O OpenVLA, lançado por pesquisadores de Stanford e Berkeley em 2024, democratizou o ajuste fino de VLA ao construir sobre o VLM Prismatic de código aberto (baseado no LLaMA) e treinar no conjunto de dados Open X-Embodiment — uma coleção de 970 mil episódios de demonstrações de robô de 22 diferentes incorporações. O OpenVLA é o ponto de partida que a maioria das equipes de pesquisa usa hoje porque é totalmente de código aberto, bem documentado e alcança um desempenho forte em benchmarks padrão de manipulação.

O ajuste fino do OpenVLA em uma tarefa personalizada requer tão poucos quanto 50–200 demonstrações, um conjunto de dados formatado com as convenções do HuggingFace LeRobot, e uma única GPU A100 ou H100 de 80GB para uma execução de treinamento de várias horas. A política resultante é surpreendentemente capaz de generalizar para variações de cena e posições de objetos novos não vistas no treinamento, graças à estrutura visual pré-treinada. serviço de coleta de dados produz conjuntos de dados no formato compatível com LeRobot, prontos para ajuste fino do OpenVLA diretamente.

pi0: Política Generalista da Physical Intelligence

pi0, da Physical Intelligence (pi.ai), representa a fronteira comercial do desenvolvimento de VLA. Ao contrário do OpenVLA, que herda uma estrutura de modelo de linguagem, o pi0 usa uma cabeça de ação de correspondência de fluxo que produz trajetórias de ação contínuas e suaves — mais adequadas para tarefas ágeis do que ações discretas tokenizadas. O pi0 foi treinado em um conjunto de dados proprietário de mais de 10.000 horas de demonstrações de robô em dezenas de tarefas e plataformas de hardware.

O que distingue o pi0 arquitetonicamente é a separação entre o caminho de raciocínio "lento" condicionado pela linguagem e o caminho de controle motor reativo "rápido". Isso espelha percepções da ciência cognitiva sobre sistemas de controle de processos duplos. O caminho lento processa a instrução da tarefa e a cena atual para produzir um plano de alto nível; o caminho rápido gera comandos motores de baixa latência. O resultado é uma política que pode lidar tanto com raciocínio de longo prazo quanto com controle reativo de alta frequência — abrindo a porta para tarefas como dobrar roupas, onde ambos são necessários simultaneamente.

O acesso ao pi0 para implantação comercial está disponível através do programa empresarial da Physical Intelligence. Para equipes explorando arquiteturas no estilo pi0, SVRC's benchmarks inclua avaliações de políticas de correspondência de fluxo em suítes de manipulação padrão, fornecendo um ponto de referência para o desempenho esperado antes de se comprometer com uma execução de treinamento.

Como os VLAs diferem das políticas clássicas de aprendizado por imitação

As políticas clássicas de IL — ACT, Diffusion Policy, BC-Z — aprendem inteiramente a partir de dados de demonstração de robôs. Suas representações visuais são aprendidas do zero ou a partir de um codificador pré-treinado estreito (como R3M ou MVP). Elas generalizam bem dentro de sua distribuição de treinamento, mas têm dificuldades com objetos novos, mudanças de iluminação ou instruções de tarefa que reformulam o objetivo. Elas também requerem mais demonstrações para alcançar um determinado nível de desempenho porque carecem do conhecimento semântico que o pré-treinamento fornece.

Os VLAs trocam computação por generalização. Uma política clássica ACT em uma GPU custa centavos por inferência; um passo de inferência VLA em um modelo de 7 bilhões de parâmetros custa ordens de magnitude mais. Para tarefas que precisam generalizar amplamente entre ambientes e instruções, os VLAs vencem. Para uma tarefa industrial definida de forma estreita e repetitiva, onde você tem mais de 1.000 demonstrações e pode ajustar o ambiente, uma política clássica geralmente alcança melhor velocidade e confiabilidade a um custo menor. O quadro de decisão prática: se sua tarefa requer generalização, comece com uma estrutura VLA. Se for estreita e de alto rendimento, otimize uma política clássica.

Ajuste fino de VLAs com dados SVRC

O SVRC fornece suporte de ponta a ponta para projetos de ajuste fino de VLA. Nosso infraestrutura de teleoperação captura demonstrações no formato RLDS/LeRobot com vídeo multi-câmera sincronizado, estado proprioceptivo e rótulos de ação a 50Hz. Nossos pipelines de dados incluem filtragem de qualidade de episódios (removendo tentativas falhadas e hesitações), metadados de calibração de câmera e anotação de instruções de tarefa.

Para equipes que precisam de dados personalizados em grande escala, nosso serviço de coleta gerenciado na instalação de Palo Alto pode produzir centenas de demonstrações por dia com operadores treinados em uma biblioteca de tarefas de manipulação. Também oferecemos consultoria sobre design de tarefas — definindo o escopo, eixos de variação e critérios de sucesso para um conjunto de dados que realmente treinará uma política generalizável. Entre em contato com nossa equipe para discutir seu projeto de ajuste fino de VLA, ou explorar nosso catálogo de conjuntos de dados existentes através do plataforma SVRC.

Relacionado: Aprendizado por Imitacão para Robôs · Política de Difusão para Aprendizado de Robôs · Guia do Robô ALOHA · Serviços de Dados · Referências