Unidad 6: Mejora y Comparte — Camino de Aprendizaje LeRobot

El Ciclo de Datos.

La forma más confiable de mejorar una política de aprendizaje de robots no es cambiar el modelo, sino mejorar los datos. El ciclo de datos es el bucle de iteración central para cualquier proyecto serio de aprendizaje de robots.

Evaluar

Realiza 20 ensayos. Mide la tasa de éxito. Categoriza las fallas por tipo. Hiciste esto en la Unidad 5.

Identifica el modo de falla principal.

¿Es la calidad de los datos (demostraciones inconsistentes), el cambio de distribución (posiciones no vistas) o la capacidad del modelo (trayectoria lo suficientemente precisa pero incorrecta)? Tu diagnóstico de la Unidad 5 responde a esto.

Recopilar datos específicos

Grabar de 20 a 30 demostraciones que cubran específicamente el régimen de fallos. Si la política falla en objetos en el lado izquierdo del espacio de trabajo, graba 20 demostraciones de esa posición específica. No grabes más de lo que ya está funcionando.

Volver a entrenar y reevaluar

Fusionar los nuevos datos con tu conjunto de datos existente, volver a entrenar y ejecutar nuevamente la evaluación de 20 ensayos. Espera una mejora de 10 a 20 puntos porcentuales por ciclo cuando el diagnóstico fue correcto.

Mezclando conjuntos de datos

LeRobot puede entrenar en múltiples conjuntos de datos simultáneamente, lo cual es útil para combinar tus datos de colección específicos con tu conjunto de datos original, o incluso con conjuntos de datos comunitarios públicos para la misma tarea y tipo de robot.

# Merge two datasets into a new combined dataset
python -m lerobot.scripts.push_dataset_to_hub \

# OR train directly on multiple repo IDs
python -m lerobot.scripts.train \

# The weights parameter upsamples the targeted data 2x
# relative to the original dataset

Mezclando con conjuntos de datos públicos: Antes de mezclar un conjunto de datos comunitario, verifica que el tipo de robot y las dimensiones del espacio de acción coincidan con los tuyos. Mezclar un conjunto de datos de 7-DOF en una ejecución de entrenamiento de 6-DOF causará un error de incompatibilidad de forma silencioso. Siempre inspecciona el info.json de cualquier conjunto de datos que planees mezclar.

Comparte tu modelo en HuggingFace Hub

Compartir tu modelo entrenado lo hace disponible para la comunidad y permite que otros usen tu política como punto de partida. Los modelos compartidos en el formato estándar de LeRobot pueden ser cargados directamente por cualquier persona con pip install lerobot.

# Push your best checkpoint to HuggingFace Hub
python -m lerobot.scripts.push_policy_to_hub \

# Add a model card (recommended)
# The push command creates a README.md template — fill it in with:
#   - Robot type and task description
#   - Training dataset repo ID
#   - Evaluation success rate
#   - Video of the policy running on your robot

Comparte tu conjunto de datos con la comunidad

Tu conjunto de datos (que subiste en la Unidad 3) ya está en HuggingFace Hub. Para hacerlo más descubrible y útil para otros:

Agrega un tarjeta de conjunto de datos en HuggingFace — describe la tarea, el robot, la configuración de grabación y el número de episodios. Esta es la cosa más impactante que puedes hacer para la descubribilidad del conjunto de datos.
Etiquétalo con lerobot, tu tipo de robot (por ejemplo, so100), y tu categoría de tarea (por ejemplo, pick-and-place).
Envíalo a la Biblioteca de conjuntos de datos SVRC para curación e inclusión en el índice de la comunidad.

Contribuyendo configuraciones de hardware de vuelta a LeRobot

Si agregaste una configuración de hardware personalizada para un robot no soportado en la Unidad 1, considera contribuirla de vuelta al repositorio de LeRobot. Abre una solicitud de extracción a huggingface/lerobot con tu archivo de configuración en lerobot/configs/robot/. Los mantenedores revisan las contribuciones de hardware rápidamente y esto beneficia directamente a cada futuro usuario de ese hardware.

¿Qué sigue?: Políticas más capaces

Ahora tienes el flujo de trabajo completo de LeRobot. Aquí está a dónde ir desde aquí:

Lenguaje

SmolVLA — políticas condicionadas por lenguaje

Cambia de ACT a SmolVLA cuando quieras que la política responda a instrucciones en lenguaje natural ("recoge el bloque azul") o generalice entre tareas. Requiere ~200+ demostraciones y un formato de aviso más estructurado. Consulta el documento de SmolVLA y los ejemplos de LeRobot.

Escala

Pi0Fast — inferencia VLA de alta velocidad

Pi0Fast funciona a 100Hz de inferencia (frente a los 30Hz de ACT), lo que permite tareas de manipulación más rápidas y bucles de control más ajustados. Requiere una GPU en el momento de la inferencia, pero produce un comportamiento significativamente más diestro a gran escala.

Generalización

Políticas de múltiples tareas

Entrena una sola política en múltiples tareas utilizando un conjunto de datos mixto con diferentes valores de task_index por episodio. SmolVLA y Pi0Fast admiten nativamente el entrenamiento de múltiples tareas. Consulta la receta de múltiples tareas de LeRobot en los ejemplos de GitHub.

Has completado el camino de LeRobot.

Instalaste LeRobot, entendiste el formato del conjunto de datos, grabaste tus propias demostraciones, entrenaste una política ACT, la evaluaste sistemáticamente y ejecutaste el ciclo de datos. Ese es el flujo de trabajo completo de aprendizaje de robots de código abierto: el mismo que utilizan laboratorios de investigación y startups de robótica en todo el mundo.

Haz preguntas en el foro Comparte tu resultado en Showcase

¿Preguntas? Únete a la Discord de HuggingFace #lerobot — los mantenedores y la comunidad son activos y acogedores.

Mejora y comparte