Modelos de Robot VLA y VLM de Código Abierto

Un catálogo curado de modelos de Acción-Lenguaje-Visión (VLA) y Lenguaje-Visión (VLM) de código abierto para la manipulación de robots — con enlaces a sitios oficiales, GitHub y Hugging Face.

Colección

Modelos VLA Fundamentales

Modelos de acción a gran escala entrenados con datos de múltiples robots y múltiples tareas.

Colección

Seguimiento de Comparación de Modelos

Modelos comúnmente utilizados para evaluación estilo benchmark lado a lado.

Colección

Modelos de Aprendizaje de Políticas

Arquitecturas optimizadas para bucles de entrenamiento de políticas IL/RL prácticos.

Clústeres de temas

Guías de modelos de alta intención

Estas páginas capturan a los usuarios que buscan por pregunta de implementación, flujo de trabajo o decisión comercial en lugar de un nombre de modelo específico.

Guía del modelo

Modelos VLA para robótica

Modelos de acción de base, compensaciones y ajuste.

Guía de flujo de trabajo

Modelos de startups de teleoperación

Lo que funciona mejor cuando las demostraciones son tu punto de partida.

Guía de manipulación

Modelos ricos en contacto

Fuerza, señales táctiles y elecciones de políticas conscientes de la recuperación.

Guía de Decisiones

Políticas de fundación vs políticas de tarea

Capacidad amplia frente a implementación rápida y estrecha.

Guía de Decisiones

Cómo elegir un modelo de robot

Datos, alcance de la tarea, evaluación y restricciones de implementación.

Guía de OpenArm

Modelos OpenArm

Opciones de políticas y caminos prácticos de inicio para OpenArm.

Navegación Rápida

Categorías Populares

Etiquetas Rápidas

Etiquetas Populares

Catalogar

Modelos VLA y VLM para Robótica

Cada modelo tiene una página dedicada con descripción, arquitectura, benchmarks y enlaces oficiales.

CoRL 2025

OpenVLA

VLA de 7B parámetros. Llama 2 + DINOv2/SigLIP. 970K demostraciones de Open X-Embodiment. Supera a RT-2-X con 7× menos parámetros. MIT, Hugging Face.

Ver modelo →

2024

Octo

Política de difusión de transformador. 27M/93M parámetros. 800K trayectorias. Multi-robot, condicionamiento de lenguaje/objetivo. MIT, Hugging Face.

Ver modelo →

Google DeepMind

RT-X / RT-1-X

Modelos Open X-Embodiment. Puntos de control JAX y TensorFlow. Multi-robot, condicionado por lenguaje. Apache 2.0.

Ver modelo →

Laboratorio de IA de Shanghái

InternVLA-M1

VLA guiado espacialmente. Dos etapas: anclaje + acción. 71–81% en Google Robot, 95.9% LIBERO. MIT, Hugging Face.

Ver modelo →

ByteDance / Tsinghua

RoboFlamingo

VLM basado en OpenFlamingo para control de robots. Cabeza de política + aprendizaje por imitación. Fuerte en CALVIN. MIT, Hugging Face.

Ver modelo →

NeurIPS 2025

BridgeVLA

VLA 3D con alineación de entrada-salida. 88.2% RLBench, 64% COLOSSEUM. Pre-entrenamiento de mapa de calor + ajuste fino de nube de puntos.

Ver modelo →

Columbia

Política de Difusión

Política visuomotora como difusión de desruido. +46.9% sobre métodos anteriores. Horizonte decreciente, transformador de series temporales. Código abierto.

Ver modelo →

Hugging Face

LeRobot

Marco + ACT, SmolVLA (450M). IL/RL de extremo a extremo. Conjuntos de datos, entrenamiento, implementación. PyTorch, Hugging Face Hub.

Ver modelo →

Activos Vinculados

Conjuntos de datos y herramientas para emparejar

Selección práctica de modelos

Compara arquitecturas según la adecuación a la tarea, necesidad de datos y complejidad de implementación.

Alineación de datos y modelos

Las elecciones de modelos están conectadas a conjuntos de datos y pilas de formatos compatibles.

Velocidad de experimentación

Enlaces de código abierto y apuntadores listos para implementación reducen la fricción de configuración.

Escalar a producción

Desde la evaluación hasta la implementación con soporte para ajuste e integración.

¿Necesitas modelos o datos personalizados?

Proporcionamos recolección de datos, soporte de ajuste fino e implementación para el aprendizaje de robots.

Servicios de Datos Contáctanos