Pourquoi la qualité des données l'emporte sur la quantité de données

Un ensemble de données de 1 000 démonstrations diversifiées et de haute qualité surpasse souvent 10 000 démonstrations bruyantes. Les problèmes de qualité (désynchronisation des capteurs, discontinuités d'action, échecs de tâches mélangés à des réussites et étiquetage incohérent) se propagent dans les politiques formées et provoquent de mystérieux échecs de déploiement.

La liste de contrôle de qualité en 15 points

Appliquez ces vérifications à chaque lot d'épisodes collectés avant de les ajouter à votre ensemble d'entraînement.

  • Horodatage des capteurs synchronisés dans un délai de 10 ms
  • Aucune image de caméra perdue (vérifiez le nombre d'images par rapport à la durée)
  • Valeurs d'action dans les limites physiques des articulations
  • Aucune discontinuité d'action > 2σ par rapport à la taille moyenne du pas
  • Libellés de réussite/échec vérifiés par le deuxième évaluateur
  • Tâche terminée dans les limites de la durée prévue
  • Aucune autocorrection de l'opérateur dans l'ensemble de données final
  • Caméra non obstruée pendant les phases critiques
  • La proprioception correspond aux actions commandées
  • Transitions d’état de la pince aux moments corrects
  • Pas d'épisodes en double
  • Champs de métadonnées complétés (ID de tâche, opérateur, date)
  • Épisode stocké au format cible (RLDS/LeRobot)
  • Statistiques par lots dans les distributions attendues
  • Échantillon aléatoire vérifié visuellement