Aprendizaje de robots

LeRobot: La biblioteca de aprendizaje de robots de código abierto explicada

LeRobot es la biblioteca de código abierto de Hugging Face para el aprendizaje de robots: un marco unificado que cubre la recolección de datos, el almacenamiento de conjuntos de datos, el entrenamiento de políticas y las interfaces de hardware para las plataformas de investigación más utilizadas. Se ha convertido en el punto de partida predeterminado para nuevos proyectos de aprendizaje de robots en 2025 y 2026.

¿Qué es LeRobot?

LeRobot es una biblioteca de Python mantenida por Hugging Face que proporciona infraestructura de extremo a extremo para la investigación en aprendizaje de robots. Maneja cuatro preocupaciones distintas: grabar demostraciones de robots desde hardware real, almacenar y versionar esas demostraciones en un formato de conjunto de datos estandarizado, entrenar políticas de aprendizaje por imitación y aprendizaje por refuerzo de vanguardia en esos conjuntos de datos, y desplegar políticas entrenadas de nuevo en hardware real para evaluación. Cada una de estas capacidades es modular: puedes usar LeRobot solo para almacenamiento de datos, o para entrenamiento y despliegue de pila completa.

El proyecto vive en GitHub bajo la organización huggingface y, a principios de 2026, ha acumulado decenas de miles de estrellas y cientos de colaboradores. Los conjuntos de datos se pueden publicar y descargar desde el Hugging Face Hub, lo que le da a LeRobot un creciente repositorio compartido de conjuntos de datos que funciona como un mercado de datos comunitario.

Algoritmos Soportados

LeRobot incluye implementaciones nativas de tres clases de políticas. ACT (Acción por Fragmentos con Transformadores) es el algoritmo principal para tareas de manipulación de alta precisión: utiliza una arquitectura CVAE basada en transformadores con ensamblaje temporal y es el punto de partida recomendado para la mayoría de los flujos de trabajo de manipulación hábil. La Política de Difusión implementa tanto las variantes basadas en CNN como las basadas en transformadores de difusión de eliminación de ruido para la predicción de acciones, que sobresale en tareas con distribuciones de acción multimodal. TDMPC2 (Control Predictivo de Modelos de Diferencia Temporal) es un algoritmo de RL basado en modelos que aprende tanto un modelo del mundo como una política, ofreciendo un entrenamiento eficiente en muestras cuando hay disponible un entorno de simulación.

Cada algoritmo está implementado en PyTorch con scripts de entrenamiento estándar, gestión de configuración hydra e integración de Weights & Biases para el seguimiento de experimentos. Cambiar entre algoritmos es un simple cambio de archivo de configuración, lo que hace que la evaluación comparativa sea sencilla.

Hardware Soportado

Las integraciones de hardware listas para usar incluyen sistemas bimanuales ALOHA (brazos ViperX), brazos Koch, brazos de bajo costo SO-100 y SO-101, plataformas móviles Lekiwi y varios brazos personalizados basados en servos Dynamixel. El OpenArm, disponible a través de SVRC, tienda, tiene soporte nativo de LeRobot para grabación de teleoperación y despliegue de políticas. Agregar una nueva plataforma de hardware requiere implementar una clase de interfaz de Robot con métodos para leer el estado de las articulaciones y enviar comandos de articulación, típicamente unas pocas centenas de líneas de código para un nuevo brazo.

El soporte de cámaras cubre cámaras USB a través de OpenCV, cámaras de profundidad Intel RealSense y arreglos de cámaras web. El sistema de grabación maneja la sincronización de múltiples cámaras con marcas de tiempo de software y admite tasas de fotogramas y resoluciones configurables por cámara.

El Formato de Conjunto de Datos de LeRobot

LeRobot almacena conjuntos de datos como archivos HDF5 con una estructura de episodio estandarizada. Cada episodio contiene arreglos para observaciones (imágenes comprimidas como flujos de video, estados de articulaciones como arreglos float32), acciones (objetivos de posición de articulaciones), marcas de tiempo y anotaciones (cadenas de lenguaje de tarea, indicadores de éxito). Los archivos de metadatos describen la configuración del robot, la calibración de la cámara y las estadísticas del conjunto de datos. Este formato está diseñado para ser autodescriptivo y portátil: un conjunto de datos grabado en una máquina puede ser cargado para entrenamiento en cualquier otra máquina sin modificación.

Los conjuntos de datos publicados en el Hugging Face Hub incluyen una tarjeta de conjunto de datos con estadísticas, descripciones de tareas y ejemplos de uso. Esto facilita el descubrimiento y la reutilización de conjuntos de datos de la comunidad, reduciendo la carga de recolección de datos para tareas comunes.

Introducción a LeRobot

La instalación requiere Python 3.10+ y PyTorch. El primer proyecto recomendado es grabar 50 demostraciones de una tarea simple de recoger y colocar en cualquier hardware compatible, y luego entrenar una política ACT con esas demostraciones. La documentación de LeRobot proporciona una guía completa desde la configuración del hardware hasta la evaluación de la política. Para equipos sin su propio hardware, SVRC ofrece arrendamiento de robots a través de nuestro programa de arrendamiento específicamente para habilitar la recolección de datos basada en LeRobot.

Compatibilidad de Exportación de SVRC

SVRC's plataforma de datos exporta conjuntos de datos en formato nativo HDF5 de LeRobot, con todos los campos de metadatos requeridos poblados desde la sesión de grabación. Los conjuntos de datos recolectados a través de las instalaciones o servicios de recolección de datos de SVRC llegan listos para el entrenamiento — no se requiere ningún paso de conversión. SVRC también proporciona alojamiento de conjuntos de datos en el Hugging Face Hub para socios de investigación que deseen compartir sus datos públicamente. Si tiene preguntas sobre la integración de datos de SVRC con su pipeline de entrenamiento de LeRobot, el equipo de ingeniería de SVRC está disponible para ayudar.