Laufende Schlussfolgerung auf dem realen Arm

Der Einsatz bedeutet, dass Sie Ihren trainierten Kontrollpunkt in Echtzeit betreiben, Live-Kamera- und gemeinsame Beobachtungen in das Netzwerk einspeisen und die Ausgabeaktionen am physischen Arm ausführen. Das Inferenzskript verarbeitet die Beobachtungs-Aktionsschleife mit 50 Hz.

Quelle ~/openarm-env/bin/activate # Make sure ROS 2 is running (real hardware mode, from Unit 1) python -m lerobot.scripts.eval \ --policy-checkpoint ~/openarm-policies/pick-and-place-v1/checkpoint_XXXXX \ --device cuda \ --num-eval-episodes 10 \ --record-video \ --output-dir ~/openarm-evals/v1 # Replace XXXXX with your best checkpoint step number from Unit 5 # --record-video saves each episode as an mp4 for review

Halten Sie beim ersten Einsatz Ihre Hand in der Nähe des physischen Not-Aus-Schalters. Eine frisch bereitgestellte Richtlinie kann gelegentlich unerwartete Bewegungen ausführen, während sie sich an die reale Hardwareumgebung anpasst. Dies ist in den ersten zwei bis drei Folgen normal. Danach sollte sich das Verhalten stabilisieren.

Eine umfassende Bereitstellungs- und Produktionsanleitung, einschließlich Sicherheitsumschlägen und Watchdog-Timern, finden Sie im OpenArm-Produktionshandbuch.

Bewertungsmethodik

Bewerten Sie Ihre Police nicht informell. Verwenden Sie ein strukturiertes Protokoll – nur so können Sie feststellen, ob eine von Ihnen vorgenommene Änderung (mehr Daten, anderer Prüfpunkt, anderer Aufgabenrahmen) tatsächlich die Leistung verbessert:

Protokollelement Spezifikation
Anzahl der Episoden pro AuswertungMindestens 10, 20 für Ergebnisse mit hoher Zuverlässigkeit
Startposition des ObjektsBehoben. Verwenden Sie Klebebandmarkierungen. In jeder Folge die gleiche Position.
ObjekttypGleiches Ziel wie beim Training. Die Beleuchtung muss den Trainingsbedingungen entsprechen.
Was zählt als ErfolgObjekt innerhalb von 3 cm vom Ziel platziert. Arm kehrt nach Hause zurück. Kein menschliches Eingreifen während der Episode.
FehlerklassifizierungProtokollfehlertyp: verpasster Griff / fallengelassenes Objekt / falsches Ziel / Zeitüberschreitung. Hier erfahren Sie, was Sie beheben müssen.
BerichtsmetrikErfolgsquote = erfolgreiche Episoden / Episoden insgesamt. Bericht mit Episodenanzahl (z. B. „7/10 = 70 %“).

Das Datenschwungrad: So werden Sie besser

Eine Richtlinie, die 7/10 Mal erfolgreich ist, ist ein guter Anfang – aber der Weg zu 9/10 oder mehr führt über das Datenschwungrad. Dies ist die Kernschleife des Roboterlernens in der Produktion:

1

Sammeln

Zeichnen Sie Demonstrationen auf, einschließlich Fehlerfällen, mit denen Ihre aktuelle Richtlinie zu kämpfen hat

2

Zug

Trainieren Sie Ihren erweiterten Datensatz erneut (oder verfeinern Sie ihn) und fügen Sie die neuen Demonstrationen hinzu

3

Auswerten

Führen Sie das strukturierte Evaluierungsprotokoll aus. Hat sich die Erfolgsquote verbessert? Welche Fehlermodi bleiben bestehen?

4

Analysieren

Sehen Sie sich die Fehlervideos an. Identifizieren Sie den konkreten Staat, in dem die Richtlinie fehlschlägt. Sammeln Sie dort gezielt Daten.

Die wichtigste Erkenntnis des Schwungrads: Zielgerichtete Daten schlagen zufällige Daten. Anstatt 50 weitere zufällige Demonstrationen aufzuzeichnen, schauen Sie sich Ihre Fehlervideos an und identifizieren Sie genau den Moment, in dem etwas schief geht. Zeichnen Sie 20 Demonstrationen auf, die speziell diesen schwierigen Zustand abdecken (z. B. den Griff am Rand des Arbeitsbereichs oder den Gegenstand in einem ungewöhnlichen Winkel). Ihre Erfolgsquote wird sich mit 20 gezielten Demos schneller verbessern als mit 50 zufälligen.

Häufige Fehlermodi und deren Behebung

  • Arm schießt über die Griffposition hinaus: Die Aktionsblöcke der Richtlinie sind zu groß oder Ihre Daten wiesen eine hohe Geschwindigkeitsvarianz auf. Nehmen Sie 10 weitere Demos mit langsamer Geschwindigkeit in der Nähe des Griffpunkts auf. Oder reduzieren chunk_size von 100 auf 50 in der Trainingskonfiguration.
  • Arm ist beim Trainingsobjekt erfolgreich, schlägt jedoch bei etwas anderen Objekten fehl: Ihren Trainingsdaten fehlte die Diversität der Objektpositionen. Nehmen Sie 20 Demos mit dem Objekt an 5 verschiedenen Positionen innerhalb eines Radius von 10 cm auf. Dies lehrt die Politik, zu verallgemeinern.
  • Die Richtlinie friert ein oder bringt wiederholte Anträge hervor: Die CVAE-Stilvariable wird ausgeblendet. Dies bedeutet oft, dass Ihr Datensatz zu viel Varianz aufweist – das Modell kann keinen konsistenten Stil finden. Suchen Sie nach gemischten Demonstrationen (verschiedene Operatoren, unterschiedliche Aufgabenrahmen) und bereinigen Sie Ihren Datensatz.

Einheit 6 abgeschlossen, wenn...

Ihr Arm erledigt die Pick-and-Place-Aufgabe in einem strukturierten Auswertungslauf 7 von 10 Mal selbstständig. Sie haben sich die drei Fehlervideos angesehen und festgestellt, was schief gelaufen ist. Sie verstehen das Datenschwungrad gut genug, um Ihre nächste Verbesserungsiteration zu planen. Dies ist das Ende des strukturierten Weges – aber es ist der Anfang Ihrer Roboter-Lernpraxis.

Du hast es geschafft.

Sie sind vom Auspacken eines Roboters zum Training und zur Umsetzung einer echten Nachahmungs-Lernrichtlinie übergegangen. Damit sind Sie 99 % der Menschen voraus, die jemals einen Roboterarm berührt haben. Was Sie hier erstellt haben – das Teleoperations-Setup, die Datenpipeline, der Schulungsworkflow – lässt sich an jede Aufgabe und jede Hardware anpassen.

Was kommt als nächstes?

Sie haben das Fundament. Hier erfahren Sie, wohin Sie von hier aus gehen können: