Modelos de Robot VLA y VLM de Código Abierto
Un catálogo curado de modelos de Acción-Lenguaje-Visión (VLA) y Lenguaje-Visión (VLM) de código abierto para la manipulación de robots — con enlaces a sitios oficiales, GitHub y Hugging Face.
Modelos VLA Fundamentales
Modelos de acción a gran escala entrenados con datos de múltiples robots y múltiples tareas.
ColecciónSeguimiento de Comparación de Modelos
Modelos comúnmente utilizados para evaluación estilo benchmark lado a lado.
ColecciónModelos de Aprendizaje de Políticas
Arquitecturas optimizadas para bucles de entrenamiento de políticas IL/RL prácticos.
Guías de modelos de alta intención
Modelos VLA para robótica
Modelos de acción de base, compensaciones y ajuste.
Guía de flujo de trabajoModelos de startups de teleoperación
Lo que funciona mejor cuando las demostraciones son tu punto de partida.
Guía de manipulaciónModelos ricos en contacto
Fuerza, señales táctiles y elecciones de políticas conscientes de la recuperación.
Guía de DecisionesPolíticas de fundación vs políticas de tarea
Capacidad amplia frente a implementación rápida y estrecha.
Guía de DecisionesCómo elegir un modelo de robot
Datos, alcance de la tarea, evaluación y restricciones de implementación.
Guía de OpenArmModelos OpenArm
Opciones de políticas y caminos prácticos de inicio para OpenArm.
Categorías Populares
Etiquetas Populares
Modelos VLA y VLM para Robótica

OpenVLA
VLA de 7B parámetros. Llama 2 + DINOv2/SigLIP. 970K demostraciones de Open X-Embodiment. Supera a RT-2-X con 7× menos parámetros. MIT, Hugging Face.
Ver modelo →
Octo
Política de difusión de transformador. 27M/93M parámetros. 800K trayectorias. Multi-robot, condicionamiento de lenguaje/objetivo. MIT, Hugging Face.
Ver modelo →
RT-X / RT-1-X
Modelos Open X-Embodiment. Puntos de control JAX y TensorFlow. Multi-robot, condicionado por lenguaje. Apache 2.0.
Ver modelo →
InternVLA-M1
VLA guiado espacialmente. Dos etapas: anclaje + acción. 71–81% en Google Robot, 95.9% LIBERO. MIT, Hugging Face.
Ver modelo →
RoboFlamingo
VLM basado en OpenFlamingo para control de robots. Cabeza de política + aprendizaje por imitación. Fuerte en CALVIN. MIT, Hugging Face.
Ver modelo →
BridgeVLA
VLA 3D con alineación de entrada-salida. 88.2% RLBench, 64% COLOSSEUM. Pre-entrenamiento de mapa de calor + ajuste fino de nube de puntos.
Ver modelo →
Política de Difusión
Política visuomotora como difusión de desruido. +46.9% sobre métodos anteriores. Horizonte decreciente, transformador de series temporales. Código abierto.
Ver modelo →
LeRobot
Marco + ACT, SmolVLA (450M). IL/RL de extremo a extremo. Conjuntos de datos, entrenamiento, implementación. PyTorch, Hugging Face Hub.
Ver modelo →Conjuntos de datos y herramientas para emparejar
Selección práctica de modelos
Compara arquitecturas según la adecuación a la tarea, necesidad de datos y complejidad de implementación.
Alineación de datos y modelos
Las elecciones de modelos están conectadas a conjuntos de datos y pilas de formatos compatibles.
Velocidad de experimentación
Enlaces de código abierto y apuntadores listos para implementación reducen la fricción de configuración.
Escalar a producción
Desde la evaluación hasta la implementación con soporte para ajuste e integración.