Modelos de Robô VLA & VLM de Código Aberto
Um catálogo curado de modelos de Ação-Linguagem-Visão (VLA) e Linguagem-Visão (VLM) de código aberto para manipulação robótica — com links para sites oficiais, GitHub e Hugging Face.
Modelos VLA Fundamentais
Modelos de ação em grande escala treinados com dados de múltiplos robôs e múltiplas tarefas.
ColeçãoRastreio de Comparação de Modelos
Modelos comumente usados para avaliação lado a lado no estilo benchmark.
ColeçãoModelos de Aprendizado de Políticas
Arquiteturas otimizadas para ciclos de treinamento de políticas IL/RL práticos.
Guias de Modelos de Alta Intenção
Modelos VLA para robótica
Modelos de ação de fundação, trade-offs e adequação.
Guia de Fluxo de TrabalhoModelos de bootstrap Teleop
O que funciona melhor quando demonstrações são seu ponto de partida.
Guia de ManipulaçãoModelos ricos em contato
Força, sinais táteis e escolhas de política ciente de recuperação.
Guia de DecisãoPolíticas de fundação vs políticas de tarefa
Capacidade ampla versus implantação rápida e estreita.
Guia de DecisãoComo escolher um modelo de robô
Dados, escopo da tarefa, avaliação e restrições de implantação.
Guia OpenArmModelos OpenArm
Escolhas de políticas e caminhos práticos de início para OpenArm.
Categorias Populares
Tags Populares
Modelos VLA e VLM para Robótica

OpenVLA
VLA de 7 bilhões de parâmetros. Llama 2 + DINOv2/SigLIP. 970K demonstrações do Open X-Embodiment. Supera o RT-2-X com 7× menos parâmetros. MIT, Hugging Face.
Veja modelo →
Octo
Política de difusão Transformer. 27M/93M parâmetros. 800K trajetórias. Multi-robô, condicionamento de linguagem/objetivo. MIT, Hugging Face.
Veja modelo →
RT-X / RT-1-X
Modelos Open X-Embodiment. Checkpoints JAX e TensorFlow. Multi-robô, condicionado por linguagem. Apache 2.0.
Veja modelo →
InternVLA-M1
VLA guiado espacialmente. Dois estágios: fundamentação + ação. 71–81% no Google Robot, 95,9% LIBERO. MIT, Hugging Face.
Veja modelo →
RoboFlamingo
VLM baseado em OpenFlamingo para controle de robô. Cabeça de política + aprendizado por imitação. Forte no CALVIN. MIT, Hugging Face.
Veja modelo →
BridgeVLA
VLA 3D com alinhamento de entrada-saída. 88,2% RLBench, 64% COLOSSEUM. Pré-treinamento de heatmap + ajuste fino de nuvem de pontos.
Veja modelo →
Política de Difusão
Política visuomotora como difusão de desnoising. +46,9% em relação a métodos anteriores. Horizonte recuado, transformer de séries temporais. Código aberto.
Veja modelo →
LeRobot
Framework + ACT, SmolVLA (450M). IL/RL de ponta a ponta. Conjuntos de dados, treinamento, implantação. PyTorch, Hugging Face Hub.
Veja modelo →Conjuntos de dados e ferramentas para emparelhar
Seleção Prática de Modelos
Compare arquiteturas por adequação à tarefa, necessidade de dados e complexidade de implantação.
Alinhamento de Dados e Modelos
As escolhas de modelos estão conectadas a conjuntos de dados e pilhas de formato compatíveis.
Velocidade de Experimentos
Links de código aberto e orientações prontas para implementação reduzem a fricção de configuração.
Escalar para Produção
Da avaliação à implantação com suporte para ajuste e integração.