Einheit 6: Bereitstellen und Verbessern – OpenArm-Lernpfad

Laufende Schlussfolgerung auf dem realen Arm

Der Einsatz bedeutet, dass Sie Ihren trainierten Kontrollpunkt in Echtzeit betreiben, Live-Kamera- und gemeinsame Beobachtungen in das Netzwerk einspeisen und die Ausgabeaktionen am physischen Arm ausführen. Das Inferenzskript verarbeitet die Beobachtungs-Aktionsschleife mit 50 Hz.

Quelle ~/openarm-env/bin/activate

# Make sure ROS 2 is running (real hardware mode, from Unit 1)

python -m lerobot.scripts.eval \ --policy-checkpoint ~/openarm-policies/pick-and-place-v1/checkpoint_XXXXX \ --device cuda \ --num-eval-episodes 10 \ --record-video \ --output-dir ~/openarm-evals/v1

# Replace XXXXX with your best checkpoint step number from Unit 5
# --record-video saves each episode as an mp4 for review

Halten Sie beim ersten Einsatz Ihre Hand in der Nähe des physischen Not-Aus-Schalters. Eine frisch bereitgestellte Richtlinie kann gelegentlich unerwartete Bewegungen ausführen, während sie sich an die reale Hardwareumgebung anpasst. Dies ist in den ersten zwei bis drei Folgen normal. Danach sollte sich das Verhalten stabilisieren.

Eine umfassende Bereitstellungs- und Produktionsanleitung, einschließlich Sicherheitsumschlägen und Watchdog-Timern, finden Sie im OpenArm-Produktionshandbuch.

Bewertungsmethodik

Bewerten Sie Ihre Police nicht informell. Verwenden Sie ein strukturiertes Protokoll – nur so können Sie feststellen, ob eine von Ihnen vorgenommene Änderung (mehr Daten, anderer Prüfpunkt, anderer Aufgabenrahmen) tatsächlich die Leistung verbessert:

Protokollelement	Spezifikation
Anzahl der Episoden pro Auswertung	Mindestens 10, 20 für Ergebnisse mit hoher Zuverlässigkeit
Startposition des Objekts	Behoben. Verwenden Sie Klebebandmarkierungen. In jeder Folge die gleiche Position.
Objekttyp	Gleiches Ziel wie beim Training. Die Beleuchtung muss den Trainingsbedingungen entsprechen.
Was zählt als Erfolg	Objekt innerhalb von 3 cm vom Ziel platziert. Arm kehrt nach Hause zurück. Kein menschliches Eingreifen während der Episode.
Fehlerklassifizierung	Protokollfehlertyp: verpasster Griff / fallengelassenes Objekt / falsches Ziel / Zeitüberschreitung. Hier erfahren Sie, was Sie beheben müssen.
Berichtsmetrik	Erfolgsquote = erfolgreiche Episoden / Episoden insgesamt. Bericht mit Episodenanzahl (z. B. „7/10 = 70 %“).

Das Datenschwungrad: So werden Sie besser

Eine Richtlinie, die 7/10 Mal erfolgreich ist, ist ein guter Anfang – aber der Weg zu 9/10 oder mehr führt über das Datenschwungrad. Dies ist die Kernschleife des Roboterlernens in der Produktion:

Sammeln

Zeichnen Sie Demonstrationen auf, einschließlich Fehlerfällen, mit denen Ihre aktuelle Richtlinie zu kämpfen hat

Zug

Trainieren Sie Ihren erweiterten Datensatz erneut (oder verfeinern Sie ihn) und fügen Sie die neuen Demonstrationen hinzu

Auswerten

Führen Sie das strukturierte Evaluierungsprotokoll aus. Hat sich die Erfolgsquote verbessert? Welche Fehlermodi bleiben bestehen?

Analysieren

Sehen Sie sich die Fehlervideos an. Identifizieren Sie den konkreten Staat, in dem die Richtlinie fehlschlägt. Sammeln Sie dort gezielt Daten.

Die wichtigste Erkenntnis des Schwungrads: Zielgerichtete Daten schlagen zufällige Daten. Anstatt 50 weitere zufällige Demonstrationen aufzuzeichnen, schauen Sie sich Ihre Fehlervideos an und identifizieren Sie genau den Moment, in dem etwas schief geht. Zeichnen Sie 20 Demonstrationen auf, die speziell diesen schwierigen Zustand abdecken (z. B. den Griff am Rand des Arbeitsbereichs oder den Gegenstand in einem ungewöhnlichen Winkel). Ihre Erfolgsquote wird sich mit 20 gezielten Demos schneller verbessern als mit 50 zufälligen.

Häufige Fehlermodi und deren Behebung

Arm schießt über die Griffposition hinaus: Die Aktionsblöcke der Richtlinie sind zu groß oder Ihre Daten wiesen eine hohe Geschwindigkeitsvarianz auf. Nehmen Sie 10 weitere Demos mit langsamer Geschwindigkeit in der Nähe des Griffpunkts auf. Oder reduzieren chunk_size von 100 auf 50 in der Trainingskonfiguration.
Arm ist beim Trainingsobjekt erfolgreich, schlägt jedoch bei etwas anderen Objekten fehl: Ihren Trainingsdaten fehlte die Diversität der Objektpositionen. Nehmen Sie 20 Demos mit dem Objekt an 5 verschiedenen Positionen innerhalb eines Radius von 10 cm auf. Dies lehrt die Politik, zu verallgemeinern.
Die Richtlinie friert ein oder bringt wiederholte Anträge hervor: Die CVAE-Stilvariable wird ausgeblendet. Dies bedeutet oft, dass Ihr Datensatz zu viel Varianz aufweist – das Modell kann keinen konsistenten Stil finden. Suchen Sie nach gemischten Demonstrationen (verschiedene Operatoren, unterschiedliche Aufgabenrahmen) und bereinigen Sie Ihren Datensatz.

Einheit 6 abgeschlossen, wenn...

Ihr Arm erledigt die Pick-and-Place-Aufgabe in einem strukturierten Auswertungslauf 7 von 10 Mal selbstständig. Sie haben sich die drei Fehlervideos angesehen und festgestellt, was schief gelaufen ist. Sie verstehen das Datenschwungrad gut genug, um Ihre nächste Verbesserungsiteration zu planen. Dies ist das Ende des strukturierten Weges – aber es ist der Anfang Ihrer Roboter-Lernpraxis.

Was kommt als nächstes?

Sie haben das Fundament. Hier erfahren Sie, wohin Sie von hier aus gehen können:

Bereitstellen und verbessern

Laufende Schlussfolgerung auf dem realen Arm

Bewertungsmethodik

Das Datenschwungrad: So werden Sie besser

Sammeln

Zug

Auswerten

Analysieren

Häufige Fehlermodi und deren Behebung

Einheit 6 abgeschlossen, wenn...

Du hast es geschafft.

Was kommt als nächstes?

OpenArm-Produktionshandbuch

Gehen Sie tiefer: Verbreitungspolitik

DK1 Bimanual-Kit

Teilen Sie Ihre Ergebnisse