Anotación de Datos Robóticos: Cómo Etiquetar Demostraciones de Robots para Entrenamiento
La anotación es la parte menos glamorosa del aprendizaje robótico y la más consequential. Un conjunto de datos de 500 demostraciones bien anotadas entrenará una mejor política que 2,000 mal etiquetadas. Aquí está lo que significa la anotación para los datos robóticos y cómo hacerlo bien.
Lo que Significa la Anotación para los Datos Robóticos
A diferencia de la clasificación de imágenes, donde la anotación significa dibujar cuadros o hacer clic en etiquetas, la anotación de demostraciones robóticas es más rica y estructurada. Un solo episodio robótico —típicamente de 20 a 200 segundos de manipulación— necesita ser etiquetado en múltiples niveles: ¿fue el episodio un éxito o un fracaso?, ¿qué lenguaje describe la tarea?, ¿dónde comienzan y terminan las fases semánticamente distintas?, y ¿hay algún cuadro que deba ser excluido del entrenamiento debido a errores de hardware o errores del operador?
La anotación suele ser realizada por revisores humanos que ven repeticiones de video de episodios grabados junto con gráficos de estados de juntas y apertura de pinzas. Las buenas herramientas de anotación muestran video sincronizado de múltiples cámaras simultáneamente, facilitando el juicio del éxito desde perspectivas que las propias cámaras del robot podrían no capturar claramente.
Banderas de Éxito: La Anotación Más Importante
Cada episodio en un conjunto de datos de entrenamiento robótico debe ser etiquetado con una bandera de éxito binaria: ¿completó el robot la tarea con éxito? Esto suena simple, pero los criterios de éxito deben definirse con precisión antes de que comience la anotación. "Coloca la taza en el plato" requiere una especificación: ¿la taza debe estar en posición vertical?, ¿importa la orientación del asa?, ¿cuánto error de posición es aceptable? Los anotadores que aplican diferentes estándares implícitos al mismo conjunto de datos crean etiquetas ruidosas que degradan el rendimiento del entrenamiento.
Escribe un documento de especificación de éxito de una página antes de que comience la anotación, con imágenes de ejemplo de casos de éxito y fracaso. Usa este documento para calibrar a los anotadores. Mide el acuerdo entre anotadores en un subconjunto compartido de episodios: si el acuerdo está por debajo del 90%, tus criterios de éxito necesitan aclaración. El pipeline de anotación de SVRC requiere documentos de criterios de éxito explícitos y verificaciones de acuerdo entre anotadores antes de que cualquier conjunto de datos sea marcado como listo para el entrenamiento.
Etiquetas de Lenguaje
Las anotaciones de lenguaje adjuntan descripciones en lenguaje natural a episodios o segmentos de episodios. Estas son necesarias para entrenar políticas condicionadas por lenguaje —políticas que siguen instrucciones como "recoge el bloque rojo" en lugar de tener la tarea codificada. Las anotaciones de lenguaje también permiten la compatibilidad con modelos de visión-lenguaje-acción (VLA) y permiten que los conjuntos de datos sean buscados y filtrados por descripción de tarea.
Escribe anotaciones de lenguaje en dos niveles de especificidad: un nombre de tarea corto ("colocación de taza") y una instrucción en lenguaje natural ("recoge la taza blanca y colócala en el plato azul"). La instrucción debe describir lo que un observador humano ve sucediendo, no el estado interno del robot. Si tu tarea involucra variaciones de tarea —diferentes objetos, diferentes ubicaciones objetivo— cada variación debe tener una instrucción correspondiente que la distinga de las demás.
Segmentación de Tareas
Para tareas de largo horizonte que involucran múltiples subtareas secuenciales, las etiquetas de segmentación marcan los límites entre fases. Una tarea de poner la mesa podría segmentarse en: alcanzar la taza, agarrar la taza, transportar la taza, colocar la taza, soltar la taza. La segmentación permite el entrenamiento de políticas jerárquicas, métricas de éxito a nivel de subtarea y aumento selectivo de datos. También permite la depuración quirúrgica: si una política falla durante el transporte pero tiene éxito durante el agarre, las etiquetas de segmentación te permiten medir las tasas de éxito de subtareas y dirigir el esfuerzo de recolección de datos donde más se necesita.
La anotación de segmentación es más costosa que la marcación de éxito y no siempre es necesaria. Prioriza la segmentación para tareas con tres o más fases semánticamente distintas, o cuando planeas usar una arquitectura de política jerárquica.
Herramientas de Anotación y Estándares de Calidad
Las herramientas de anotación comunes para datos de robots incluyen Label Studio (código abierto, soporta video y datos de series temporales), CVAT (herramienta de anotación de visión por computadora, buena para superposiciones de cuadros delimitadores) y navegadores de episodios personalizados construidos con Gradio o Streamlit. La plataforma de datos de SVRC incluye una interfaz de anotación de episodios incorporada accesible a través de la aplicación web, que soporta banderas de éxito, etiquetas de idioma y marcas de exclusión a nivel de fotograma.
Los estándares de calidad importan más que la cantidad. SVRC aplica una puerta de calidad de tres etapas a todos los conjuntos de datos: auto-anotación del operador inmediatamente después de la grabación, revisión secundaria por un anotador capacitado y verificaciones de consistencia automatizadas que comparan las anotaciones con estadísticas de estado conjunto (por ejemplo, episodios marcados como éxito donde la pinza nunca se cerró son señalados para revisión).
La Pipeline de Anotación de SVRC
Cuando usas SVRC's servicios de recolección de datos, la anotación es parte del entregable. Nuestros operadores anotan cada episodio con banderas de éxito y etiquetas de idioma durante la sesión de grabación, y nuestro equipo de anotación realiza una revisión secundaria antes de la exportación del conjunto de datos. Recibes un conjunto de datos con anotaciones de alta confianza, puntajes de acuerdo de anotadores y un informe de calidad completo. Para equipos que traen sus propios datos recolectados, SVRC ofrece servicios solo de anotación y puede procesar conjuntos de datos existentes recolectados en cualquier plataforma de hardware soportada. Contáctanos para discutir tus necesidades de anotación de conjuntos de datos.