Modelos de Robô VLA & VLM de Código Aberto

Um catálogo curado de modelos de Ação-Linguagem-Visão (VLA) e Linguagem-Visão (VLM) de código aberto para manipulação robótica — com links para sites oficiais, GitHub e Hugging Face.

Coleção

Modelos VLA Fundamentais

Modelos de ação em grande escala treinados com dados de múltiplos robôs e múltiplas tarefas.

Coleção

Rastreio de Comparação de Modelos

Modelos comumente usados para avaliação lado a lado no estilo benchmark.

Coleção

Modelos de Aprendizado de Políticas

Arquiteturas otimizadas para ciclos de treinamento de políticas IL/RL práticos.

Clusters de Tópicos

Guias de Modelos de Alta Intenção

Estas páginas capturam usuários que buscam por questões de implantação, fluxo de trabalho ou decisão comercial em vez de um nome de modelo específico.

Guia de Modelos

Modelos VLA para robótica

Modelos de ação de fundação, trade-offs e adequação.

Guia de Fluxo de Trabalho

Modelos de bootstrap Teleop

O que funciona melhor quando demonstrações são seu ponto de partida.

Guia de Manipulação

Modelos ricos em contato

Força, sinais táteis e escolhas de política ciente de recuperação.

Guia de Decisão

Políticas de fundação vs políticas de tarefa

Capacidade ampla versus implantação rápida e estreita.

Guia de Decisão

Como escolher um modelo de robô

Dados, escopo da tarefa, avaliação e restrições de implantação.

Guia OpenArm

Modelos OpenArm

Escolhas de políticas e caminhos práticos de início para OpenArm.

Navegação Rápida

Categorias Populares

Tags rápidas

Tags Populares

Catálogo

Modelos VLA e VLM para Robótica

Cada modelo tem uma página dedicada com descrição, arquitetura, benchmarks e links oficiais.

CoRL 2025

OpenVLA

VLA de 7 bilhões de parâmetros. Llama 2 + DINOv2/SigLIP. 970K demonstrações do Open X-Embodiment. Supera o RT-2-X com 7× menos parâmetros. MIT, Hugging Face.

Veja modelo →

2024

Octo

Política de difusão Transformer. 27M/93M parâmetros. 800K trajetórias. Multi-robô, condicionamento de linguagem/objetivo. MIT, Hugging Face.

Veja modelo →

Google DeepMind

RT-X / RT-1-X

Modelos Open X-Embodiment. Checkpoints JAX e TensorFlow. Multi-robô, condicionado por linguagem. Apache 2.0.

Veja modelo →

Laboratório de IA de Xangai

InternVLA-M1

VLA guiado espacialmente. Dois estágios: fundamentação + ação. 71–81% no Google Robot, 95,9% LIBERO. MIT, Hugging Face.

Veja modelo →

ByteDance / Tsinghua

RoboFlamingo

VLM baseado em OpenFlamingo para controle de robô. Cabeça de política + aprendizado por imitação. Forte no CALVIN. MIT, Hugging Face.

Veja modelo →

NeurIPS 2025

BridgeVLA

VLA 3D com alinhamento de entrada-saída. 88,2% RLBench, 64% COLOSSEUM. Pré-treinamento de heatmap + ajuste fino de nuvem de pontos.

Veja modelo →

Columbia

Política de Difusão

Política visuomotora como difusão de desnoising. +46,9% em relação a métodos anteriores. Horizonte recuado, transformer de séries temporais. Código aberto.

Veja modelo →

Hugging Face

LeRobot

Framework + ACT, SmolVLA (450M). IL/RL de ponta a ponta. Conjuntos de dados, treinamento, implantação. PyTorch, Hugging Face Hub.

Veja modelo →

Ativos Vinculados

Conjuntos de dados e ferramentas para emparelhar

Seleção Prática de Modelos

Compare arquiteturas por adequação à tarefa, necessidade de dados e complexidade de implantação.

Alinhamento de Dados e Modelos

As escolhas de modelos estão conectadas a conjuntos de dados e pilhas de formato compatíveis.

Velocidade de Experimentos

Links de código aberto e orientações prontas para implementação reduzem a fricção de configuração.

Escalar para Produção

Da avaliação à implantação com suporte para ajuste e integração.

Precisa de Modelos ou Dados Personalizados?

Fornecemos coleta de dados, suporte para ajuste fino e implantação para aprendizado de robôs.

Serviços de Dados Contate-nos