Warum Datenqualität die Datenmenge übertrifft

Ein Datensatz mit 1.000 qualitativ hochwertigen, vielfältigen Demonstrationen übertrifft oft 10.000 laute Demonstrationen. Qualitätsprobleme – Sensordesynchronisation, Aktionsunterbrechungen, mit Erfolgen vermischte Aufgabenfehler und inkonsistente Kennzeichnung – breiten sich in geschulten Richtlinien aus und verursachen mysteriöse Bereitstellungsfehler.

Die 15-Punkte-Qualitätscheckliste

Wenden Sie diese Prüfungen auf jeden Stapel gesammelter Episoden an, bevor Sie sie Ihrem Trainingssatz hinzufügen.

  • Sensor-Zeitstempel werden innerhalb von 10 ms synchronisiert
  • Keine ausgelassenen Kamerabilder (Bildanzahl vs. Dauer prüfen)
  • Aktionswerte innerhalb physikalischer Gelenkgrenzen
  • Keine Aktionsdiskontinuitäten >2σ von der mittleren Schrittgröße
  • Vom zweiten Prüfer überprüfte Erfolgs-/Misserfolgskennzeichnungen
  • Die Aufgabe wurde innerhalb der erwarteten Dauer abgeschlossen
  • Keine Selbstkorrekturen des Bedieners im endgültigen Datensatz
  • Kamera ist in kritischen Phasen nicht abgedeckt
  • Propriozeption entspricht befohlenen Aktionen
  • Greiferzustandsübergänge im richtigen Moment
  • Keine doppelten Episoden
  • Metadatenfelder vollständig (Aufgaben-ID, Operator, Datum)
  • Episode im Zielformat gespeichert (RLDS/LeRobot)
  • Batch-Statistiken innerhalb der erwarteten Verteilungen
  • Stichprobe visuell stichprobenartig geprüft