Warum Datenqualität wichtiger ist als Quantität
Ein weit verbreitetes Missverständnis beim Roboterlernen ist, dass mehr Demonstrationen automatisch zu einer besseren Richtlinie führen. Das ist falsch. Neuronale Netze lernen, das nachzuahmen Verteilung des Verhaltens in Ihrem Datensatz. Wenn Ihre Demonstrationen inkonsistent sind – unterschiedliche Wege, unterschiedliche Geschwindigkeiten, unterschiedliche Objektpositionen – erfährt das Netzwerk einen verschwommenen Durchschnitt, der keiner tatsächlich erfolgreichen Strategie entspricht.
50 Demonstrationen, bei denen der Arm denselben sauberen Weg einschlägt, das Objekt an der gleichen Stelle ergreift und in die gleiche Ausgangsposition zurückkehrt, ergeben eine Richtlinie, die besser verallgemeinert als 500 Demonstrationen mit hoher Varianz. Die erste Sammlungssitzung ist Ihre Chance, diese Konsistenz herzustellen. Nehmen Sie sich Zeit. Löschen Sie alle Demos, die sich falsch anfühlten, und nehmen Sie sie erneut auf.
Weitere Informationen zum Pipeline-Design finden Sie im Übersicht über die Datenerfassungspipeline in der Robotik-Bibliothek.
Das LeRobot-Datensatzformat
Ihre Aufnahmen werden in gespeichert LeRobot-Format – der Standard, der von der LeRobot-Bibliothek von Hugging Face verwendet wird und mit den ACT- und Diffusion Policy-Trainern kompatibel ist, die Sie in Einheit 5 verwenden werden.
Was wird aufgezeichnet?
Gelenkpositionen (6 DOF + Greifer), Gelenkgeschwindigkeiten, Endeffektor-Pose, Kamerabilder (RGB + optionale Tiefe), Zeitstempel und Aufgabenmetadaten.
Dateistruktur
Ein Ordner pro Episode. Jede Episode enthält eine data.parquet mit Zustands-/Aktionsarrays und a video/ Unterordner mit Kamerastreams.
Abtastrate
Standardmäßig 50 Hz. Jede Sekunde Teleoperation erzeugt 50 Zeitschritte. Ein 10-Sekunden-Pick-and-Place erzeugt 500 (Zustands-, Aktions-)Paare.
Kompatibilität
Das LeRobot-Format wird direkt geladen lerobot.common.datasets. Es ist auch für TF-Agents-Pipelines in RLDS konvertierbar. Referenzdatensätze durchsuchen →
Ihre Aufnahmesitzung
Starten Sie das Aufnahmeskript mit Ihrem Aufgabennamen und der angestrebten Episodenanzahl. Das Skript übernimmt automatisch die Episodenverwaltung, Dateibenennung und Qualitätskennzeichnung:
Richten Sie Ihren Arbeitsbereich mit demselben Objekt in derselben Startposition für jede Episode ein. Verwenden Sie Klebebandmarkierungen auf dem Tisch, um die Objektposition konsistent zu halten. Ihr Arm sollte vor Beginn jeder Episode in die exakt gleiche Ausgangshaltung zurückkehren – das Aufnahmeskript erzwingt dies mit einer Homing-Prüfung.
Praxistipp: Streben Sie Episoden mit einer Länge zwischen jeweils 8 und 15 Sekunden an. Zu kurz (unter 5 Sekunden) und die Politik hat keine Zeit, einen reibungslosen Verlauf zu planen. Zu lang (über 20 Sekunden) und kleine Abweichungen. Für ein Standard-Pick-and-Place sind 10 Sekunden pro Episode das Ziel.
Checkliste zur Datenqualität
Bevor Sie mit Einheit 5 fortfahren, überprüfen Sie, ob Ihr Datensatz alle fünf dieser Prüfungen besteht. Verwerfen Sie Episoden, bei denen ein Punkt fehlschlägt, und nehmen Sie sie neu auf.
- Keine Fehlgriffe. Jede Episode endet mit der erfolgreichen Platzierung des Objekts am Zielort. Episoden, in denen der Arm den Griff verfehlte oder das Objekt fallen ließ, müssen gelöscht werden – sie lehren das Modell, zu versagen.
- Konsistente Startertasche. Der Arm startet in jeder Episode in der Ausgangsposition. Überprüfen Sie im Datensatz-Viewer, ob die Gelenkwinkel im Zeitschritt 0 in allen 50 Episoden innerhalb von ±2° voneinander liegen.
-
Keine plötzlichen Sprünge oder Rucke. Visualisieren Sie 3–5 zufällige Episoden mit
python -m lerobot.visualize_dataset --dataset ~/openarm-datasets/pick-and-place. Aktionssequenzen sollten glatte, kontinuierliche Kurven und keine Spitzen sein. - Die Kamerabilder sind klar und scharf. Stellen Sie sicher, dass Ihre Arbeitsplatzkamera nicht verdeckt ist, nicht durch direktes Licht ausgeblendet wird und dass das Objekt während jeder Episode deutlich sichtbar ist. Verschwommenes oder dunkles Video beeinträchtigt die Leistung der Richtlinie.
-
50 vollständige Episoden gespeichert. Laufen
python -m lerobot.inspect ~/openarm-datasets/pick-and-placeund bestätigen Sie, dass Sie genau 50 Episoden ohne beschädigte Dateien haben. Das Skript markiert alle Episoden mit fehlenden Frames oder abgeschnittenen Actionsequenzen.
Durchsuchen Sie Referenzdatensätze zum Vergleich
Die SVRC-Datensatzbibliothek enthält Beispiel-Pick-and-Place-Aufzeichnungen, die Sie als Qualitätsreferenz verwenden können. Wenn Ihre Daten deutlich anders aussehen, prüfen Sie dies vor dem Training. Öffnen Sie SVRC-Datensätze →
Einheit 4 abgeschlossen, wenn...
Sie haben 50 saubere Episoden im LeRobot-Format gespeichert unter ~/openarm-datasets/pick-and-place. Alle fünf Punkte der Qualitätscheckliste werden bestanden. Läuft lerobot.inspect Zeigt 50 Episoden, keine Fehler. Sie sind bereit, diesen Datensatz an die Trainingspipeline in Einheit 5 zu übergeben.