Pourquoi la qualité des données l'emporte sur la quantité de données
Un ensemble de données de 1 000 démonstrations diversifiées et de haute qualité surpasse souvent 10 000 démonstrations bruyantes. Les problèmes de qualité (désynchronisation des capteurs, discontinuités d'action, échecs de tâches mélangés à des réussites et étiquetage incohérent) se propagent dans les politiques formées et provoquent de mystérieux échecs de déploiement.
La liste de contrôle de qualité en 15 points
Appliquez ces vérifications à chaque lot d'épisodes collectés avant de les ajouter à votre ensemble d'entraînement.
- Horodatage des capteurs synchronisés dans un délai de 10 ms
- Aucune image de caméra perdue (vérifiez le nombre d'images par rapport à la durée)
- Valeurs d'action dans les limites physiques des articulations
- Aucune discontinuité d'action > 2σ par rapport à la taille moyenne du pas
- Libellés de réussite/échec vérifiés par le deuxième évaluateur
- Tâche terminée dans les limites de la durée prévue
- Aucune autocorrection de l'opérateur dans l'ensemble de données final
- Caméra non obstruée pendant les phases critiques
- La proprioception correspond aux actions commandées
- Transitions d’état de la pince aux moments corrects
- Pas d'épisodes en double
- Champs de métadonnées complétés (ID de tâche, opérateur, date)
- Épisode stocké au format cible (RLDS/LeRobot)
- Statistiques par lots dans les distributions attendues
- Échantillon aléatoire vérifié visuellement