Warum Datenqualität die Datenmenge übertrifft
Ein Datensatz mit 1.000 qualitativ hochwertigen, vielfältigen Demonstrationen übertrifft oft 10.000 laute Demonstrationen. Qualitätsprobleme – Sensordesynchronisation, Aktionsunterbrechungen, mit Erfolgen vermischte Aufgabenfehler und inkonsistente Kennzeichnung – breiten sich in geschulten Richtlinien aus und verursachen mysteriöse Bereitstellungsfehler.
Die 15-Punkte-Qualitätscheckliste
Wenden Sie diese Prüfungen auf jeden Stapel gesammelter Episoden an, bevor Sie sie Ihrem Trainingssatz hinzufügen.
- Sensor-Zeitstempel werden innerhalb von 10 ms synchronisiert
- Keine ausgelassenen Kamerabilder (Bildanzahl vs. Dauer prüfen)
- Aktionswerte innerhalb physikalischer Gelenkgrenzen
- Keine Aktionsdiskontinuitäten >2σ von der mittleren Schrittgröße
- Vom zweiten Prüfer überprüfte Erfolgs-/Misserfolgskennzeichnungen
- Die Aufgabe wurde innerhalb der erwarteten Dauer abgeschlossen
- Keine Selbstkorrekturen des Bedieners im endgültigen Datensatz
- Kamera ist in kritischen Phasen nicht abgedeckt
- Propriozeption entspricht befohlenen Aktionen
- Greiferzustandsübergänge im richtigen Moment
- Keine doppelten Episoden
- Metadatenfelder vollständig (Aufgaben-ID, Operator, Datum)
- Episode im Zielformat gespeichert (RLDS/LeRobot)
- Batch-Statistiken innerhalb der erwarteten Verteilungen
- Stichprobe visuell stichprobenartig geprüft