Por qué la calidad de los datos supera a la cantidad de datos

Un conjunto de datos de 1,000 demostraciones de alta calidad y diversas a menudo supera a 10,000 ruidosas. Los problemas de calidad —desincronización de sensores, discontinuidades en las acciones, fallos en tareas mezclados con éxitos y etiquetado inconsistente— se propagan a las políticas entrenadas y causan fallos misteriosos en el despliegue.

La lista de verificación de calidad de 15 puntos

Aplique estas verificaciones a cada lote de episodios recolectados antes de agregarlos a su conjunto de entrenamiento.

  • Tiempos de marca de sensores sincronizados dentro de 10 ms
  • Sin cuadros de cámara perdidos (verificar el conteo de cuadros frente a la duración)
  • Valores de acción dentro de los límites físicos de las articulaciones
  • Sin discontinuidades en las acciones >2σ del tamaño medio del paso
  • Etiquetas de éxito/fallo verificadas por un segundo revisor
  • Tarea completada dentro de los límites de duración esperados
  • Sin autocorrecciones del operador en el conjunto de datos final
  • Cámara no ocluida durante fases críticas
  • La propriocepción coincide con las acciones comandadas
  • Transiciones de estado del gripper en los momentos correctos
  • No hay episodios duplicados
  • Campos de metadatos completos (ID de tarea, operador, fecha)
  • Episodio almacenado en formato objetivo (RLDS/LeRobot)
  • Estadísticas de lotes dentro de distribuciones esperadas
  • Muestra aleatoria verificada visualmente