Por qué la calidad de los datos supera a la cantidad de datos
Un conjunto de datos de 1,000 demostraciones de alta calidad y diversas a menudo supera a 10,000 ruidosas. Los problemas de calidad —desincronización de sensores, discontinuidades en las acciones, fallos en tareas mezclados con éxitos y etiquetado inconsistente— se propagan a las políticas entrenadas y causan fallos misteriosos en el despliegue.
La lista de verificación de calidad de 15 puntos
Aplique estas verificaciones a cada lote de episodios recolectados antes de agregarlos a su conjunto de entrenamiento.
- Tiempos de marca de sensores sincronizados dentro de 10 ms
- Sin cuadros de cámara perdidos (verificar el conteo de cuadros frente a la duración)
- Valores de acción dentro de los límites físicos de las articulaciones
- Sin discontinuidades en las acciones >2σ del tamaño medio del paso
- Etiquetas de éxito/fallo verificadas por un segundo revisor
- Tarea completada dentro de los límites de duración esperados
- Sin autocorrecciones del operador en el conjunto de datos final
- Cámara no ocluida durante fases críticas
- La propriocepción coincide con las acciones comandadas
- Transiciones de estado del gripper en los momentos correctos
- No hay episodios duplicados
- Campos de metadatos completos (ID de tarea, operador, fecha)
- Episodio almacenado en formato objetivo (RLDS/LeRobot)
- Estadísticas de lotes dentro de distribuciones esperadas
- Muestra aleatoria verificada visualmente