Aprendizaje de robots

Open X-Embodiment: qué es y por qué es importante para el aprendizaje de robots

Open X-Embodiment (OXE) es el conjunto de datos de aprendizaje colaborativo de robots más grande que existe. Lanzado por un consorcio de más de 30 instituciones de investigación, representa el primer intento serio de construir un conjunto de datos base para políticas de robots generalistas; el equivalente en robótica de ImageNet o The Pile.

¿Qué es Open X-Embodiment?

Open X-Embodiment es un conjunto de datos unificado de demostraciones de manipulación robótica recopiladas en más de 22 diferentes encarnaciones de robots, que abarcan brazos de Franka, WidowX, UR5, Kuka y otros, y en decenas de laboratorios de investigación en todo el mundo. El conjunto de datos totaliza más de un millón de episodios que cubren cientos de tareas de manipulación distintas: recoger, colocar, abrir cajones, verter líquidos, limpiar superficies y más.

La "X" en el nombre significa cruzar encarnaciones: la ambición definitoria de OXE es entrenar políticas que transfieran conocimiento entre cuerpos de robots. Una política preentrenada en el conjunto de datos completo de OXE ha visto comportamientos de manipulación de una amplia gama de geometrías de brazos, tipos de pinzas, configuraciones de cámaras y dominios de tareas, dándole un rico conocimiento previo que puede ajustarse a un nuevo robot con muchas menos demostraciones que entrenar desde cero.

Instituciones Participantes y Composición del Conjunto de Datos

Las instituciones contribuyentes incluyen Stanford, UC Berkeley, Google DeepMind, Carnegie Mellon, MIT, ETH Zurich y muchas otras. Cada laboratorio contribuyó con sus conjuntos de datos de demostración existentes en un formato estandarizado. El conjunto de datos se aloja en Google Cloud Storage y está disponible de forma gratuita para uso en investigación. Los sub-conjuntos de datos varían significativamente en tamaño: algunos laboratorios contribuyeron con decenas de miles de episodios, otros con unos pocos cientos. La distribución de tareas está sesgada hacia la recogida y colocación en mesa, reflejando la configuración experimental más común, pero la diversidad de objetos, condiciones de iluminación y configuraciones de brazos es realmente amplia.

El Robotics Transformer 2 (RT-2) y modelos posteriores de Google fueron entrenados con datos de OXE y demostraron que el preentrenamiento cruzado de encarnaciones produce políticas con una generalización cero significativa mejor que el entrenamiento de un solo robot. Este resultado validó la hipótesis central de OXE y aceleró la adopción de conjuntos de datos cruzados de encarnaciones en el campo.

Formato del Conjunto de Datos y RLDS

OXE utiliza el formato RLDS (Especificación de Conjunto de Datos de Aprendizaje Robótico), un esquema basado en TensorFlow Datasets para almacenar trayectorias de robots. Cada episodio en RLDS es una secuencia de pasos, donde cada paso contiene un diccionario de observaciones (imágenes, estados de las articulaciones, estado de la pinza), un vector de acción, una señal de recompensa y una anotación en lenguaje que describe la tarea. El esquema es lo suficientemente flexible como para acomodar diferentes modalidades de observación y espacios de acción a través de las encarnaciones.

Trabajar con RLDS requiere TensorFlow o la biblioteca rlds_creator. LeRobot de Hugging Face proporciona utilidades de conversión para transformar los datos de OXE a su propio formato, haciéndolo accesible a investigadores que prefieren PyTorch. SVRC's plataforma de datos exporta conjuntos de datos en un formato compatible tanto con RLDS como con LeRobot, lo que permite una contribución sencilla a futuras versiones de OXE.

Cómo Contribuir a OXE

Contribuir tu conjunto de datos a OXE requiere formatear tus demostraciones en RLDS, agregar anotaciones de lenguaje por paso y enviar una solicitud de extracción al repositorio de GitHub de OXE con la documentación de tu conjunto de datos. El proceso de envío incluye una revisión de la calidad de los datos y el cumplimiento del formato. Si tus demostraciones fueron recopiladas con los servicios de datos de SVRC, la plataforma puede generar exportaciones compatibles con RLDS con metadatos estandarizados, simplificando significativamente el proceso de contribución. Contacta al equipo de SVRC para obtener orientación sobre cómo preparar tus datos para la presentación a OXE.

Usando OXE para la entrada previa

El uso más valioso de OXE es como un conjunto de datos de preentrenamiento. Descarga un subconjunto de OXE relevante para tu dominio de tarea y robot, entrena un esqueleto de política general, luego ajusta finamente en tus propias demostraciones específicas de tarea. Este enfoque requiere consistentemente menos demostraciones específicas de tarea que entrenar desde cero, a menudo 5-10 veces menos, mientras logra un rendimiento final más alto.

El preentrenamiento en OXE es más beneficioso cuando tus datos de ajuste fino son limitados (menos de 100 episodios), cuando tus tareas son conceptualmente similares a las tareas en OXE, y cuando estás utilizando una arquitectura diseñada para la transferencia cruzada de encarnaciones como Octo, OpenVLA o RT-2-X. El ajuste fino específico de tarea desde cero sigue siendo competitivo cuando tienes abundantes demostraciones de alta calidad recopiladas en condiciones de despliegue.

Compatibilidad con SVRC y Cómo Ayudamos

El estándar de recolección de datos de SVRC está diseñado para ser compatible con OXE desde el principio: colocación de cámara estandarizada, esquema de anotación consistente, etiquetado de éxito con control de calidad y exportación lista para RLDS. Los datos recopilados a través de SVRC's servicios de datos pueden ser utilizados directamente para el ajuste fino de OXE o contribuidos a futuras versiones del conjunto de datos. Para los equipos que desean aprovechar los modelos preentrenados de OXE en su hardware específico, SVRC ofrece soporte de ingeniería para configurar el pipeline de ajuste fino y evaluar políticas listas para el despliegue.