Pourquoi la qualité des données compte plus que la quantité
Une idée fausse courante dans l’apprentissage robotique est que davantage de démonstrations produisent automatiquement une meilleure politique. C'est faux. Les réseaux de neurones apprennent à imiter distribution du comportement dans votre ensemble de données. Si vos démonstrations sont incohérentes – chemins différents, vitesses différentes, positions d’objets différentes – le réseau apprend une moyenne floue qui ne correspond à aucune stratégie réellement réussie.
50 démonstrations où le bras emprunte le même chemin propre, saisit l'objet au même endroit et revient à la même position d'origine produiront une politique qui généralise mieux que 500 démonstrations avec une variance élevée. La première séance de collecte est votre chance d’établir cette cohérence. Prenez votre temps. Supprimez et réenregistrez toute démo qui vous semble erronée.
Pour des connaissances plus approfondies sur la conception de pipelines, lisez le Présentation du pipeline de collecte de données dans la bibliothèque de robotique.
Le format de l'ensemble de données LeRobot
Vos enregistrements seront sauvegardés dans Formater LeRobot — le standard utilisé par la bibliothèque LeRobot de Hugging Face et compatible avec les formateurs ACT et Diffusion Policy que vous utiliserez dans l'unité 5.
Ce qui est enregistré
Positions des articulations (6 DOF + pince), vitesses des articulations, pose de l'effecteur final, images de la caméra (RVB + profondeur facultative), horodatages et métadonnées des tâches.
Structure du fichier
Un dossier par épisode. Chaque épisode contient un data.parquet avec des tableaux d'états/actions et un video/ sous-dossier avec les flux de caméra.
Taux d'échantillonnage
50 Hz par défaut. Chaque seconde de téléopération produit 50 pas de temps. Un pick and place de 10 secondes produit 500 paires (état, action).
Compatibilité
Le format LeRobot se charge directement dans lerobot.common.datasets. Il est également convertible en RLDS pour les pipelines TF-Agents. Parcourir les ensembles de données de référence →
Votre session d'enregistrement
Lancez le script d'enregistrement avec le nom de votre tâche et le nombre d'épisodes cible. Le script gère automatiquement la gestion des épisodes, la dénomination des fichiers et le signalement de la qualité :
Configurez votre espace de travail avec le même objet dans la même position de départ pour chaque épisode. Utilisez des marques de ruban adhésif sur la table pour maintenir la position de l'objet cohérente. Votre bras doit revenir exactement à la même pose d'origine avant le début de chaque épisode – le script d'enregistrement le renforce avec une vérification de référence.
Conseil pratique : Visez des épisodes compris entre 8 et 15 secondes chacun. Trop court (moins de 5 ans) et le politique n’a pas le temps de planifier une trajectoire fluide. Trop long (plus de 20 s) et petites variations s'aggravent. Pour un pick-and-place standard, l'objectif est de 10 secondes par épisode.
Liste de contrôle de la qualité des données
Avant de passer à l'unité 5, vérifiez que votre ensemble de données réussit ces cinq vérifications. Jetez et réenregistrez les épisodes qui échouent à un élément.
- Aucune prise ratée. Chaque épisode se termine avec l'objet placé avec succès à l'emplacement cible. Les épisodes où le bras a manqué la prise ou a laissé tomber l'objet doivent être supprimés – ils apprennent au modèle à échouer.
- Pose de départ cohérente. Le bras part de la position d'origine dans chaque épisode. Vérifiez dans la visionneuse de l’ensemble de données que les angles communs au pas de temps 0 sont à ± 2° les uns des autres sur les 50 épisodes.
-
Pas de sauts ou de secousses brusques. Visualisez 3 à 5 épisodes aléatoires avec
python -m lerobot.visualize_dataset --dataset ~/openarm-datasets/pick-and-place. Les séquences d’action doivent être des courbes continues et douces, et non des pointes. - Les cadres de la caméra sont clairs et nets. Vérifiez que la caméra de votre espace de travail n'est pas obstruée, ni soufflée par la lumière directe, et que l'objet est clairement visible tout au long de chaque épisode. Une vidéo floue ou sombre dégrade les performances des règles.
-
50 épisodes complets enregistrés. Courir
python -m lerobot.inspect ~/openarm-datasets/pick-and-placeet confirmez que vous avez exactement 50 épisodes sans fichiers corrompus. Le script signalera tous les épisodes comportant des images manquantes ou des séquences d'action tronquées.
Parcourez les ensembles de données de référence à des fins de comparaison
La bibliothèque de jeux de données SVRC contient des exemples d'enregistrements pick-and-place que vous pouvez utiliser comme référence de qualité. Si vos données semblent très différentes, étudiez-les avant l'entraînement. Ouvrir les ensembles de données SVRC →
Unité 4 terminée quand...
Vous disposez de 50 épisodes propres enregistrés au format LeRobot à ~/openarm-datasets/pick-and-place. Les cinq éléments de la liste de contrôle de qualité sont réussis. En cours d'exécution lerobot.inspect montre 50 épisodes, aucune erreur. Vous êtes prêt à transmettre cet ensemble de données au pipeline de formation de l'unité 5.