Laufende Schlussfolgerung auf dem realen Arm
Der Einsatz bedeutet, dass Sie Ihren trainierten Kontrollpunkt in Echtzeit betreiben, Live-Kamera- und gemeinsame Beobachtungen in das Netzwerk einspeisen und die Ausgabeaktionen am physischen Arm ausführen. Das Inferenzskript verarbeitet die Beobachtungs-Aktionsschleife mit 50 Hz.
Halten Sie beim ersten Einsatz Ihre Hand in der Nähe des physischen Not-Aus-Schalters. Eine frisch bereitgestellte Richtlinie kann gelegentlich unerwartete Bewegungen ausführen, während sie sich an die reale Hardwareumgebung anpasst. Dies ist in den ersten zwei bis drei Folgen normal. Danach sollte sich das Verhalten stabilisieren.
Eine umfassende Bereitstellungs- und Produktionsanleitung, einschließlich Sicherheitsumschlägen und Watchdog-Timern, finden Sie im OpenArm-Produktionshandbuch.
Bewertungsmethodik
Bewerten Sie Ihre Police nicht informell. Verwenden Sie ein strukturiertes Protokoll – nur so können Sie feststellen, ob eine von Ihnen vorgenommene Änderung (mehr Daten, anderer Prüfpunkt, anderer Aufgabenrahmen) tatsächlich die Leistung verbessert:
| Protokollelement | Spezifikation |
|---|---|
| Anzahl der Episoden pro Auswertung | Mindestens 10, 20 für Ergebnisse mit hoher Zuverlässigkeit |
| Startposition des Objekts | Behoben. Verwenden Sie Klebebandmarkierungen. In jeder Folge die gleiche Position. |
| Objekttyp | Gleiches Ziel wie beim Training. Die Beleuchtung muss den Trainingsbedingungen entsprechen. |
| Was zählt als Erfolg | Objekt innerhalb von 3 cm vom Ziel platziert. Arm kehrt nach Hause zurück. Kein menschliches Eingreifen während der Episode. |
| Fehlerklassifizierung | Protokollfehlertyp: verpasster Griff / fallengelassenes Objekt / falsches Ziel / Zeitüberschreitung. Hier erfahren Sie, was Sie beheben müssen. |
| Berichtsmetrik | Erfolgsquote = erfolgreiche Episoden / Episoden insgesamt. Bericht mit Episodenanzahl (z. B. „7/10 = 70 %“). |
Das Datenschwungrad: So werden Sie besser
Eine Richtlinie, die 7/10 Mal erfolgreich ist, ist ein guter Anfang – aber der Weg zu 9/10 oder mehr führt über das Datenschwungrad. Dies ist die Kernschleife des Roboterlernens in der Produktion:
Sammeln
Zeichnen Sie Demonstrationen auf, einschließlich Fehlerfällen, mit denen Ihre aktuelle Richtlinie zu kämpfen hat
Zug
Trainieren Sie Ihren erweiterten Datensatz erneut (oder verfeinern Sie ihn) und fügen Sie die neuen Demonstrationen hinzu
Auswerten
Führen Sie das strukturierte Evaluierungsprotokoll aus. Hat sich die Erfolgsquote verbessert? Welche Fehlermodi bleiben bestehen?
Analysieren
Sehen Sie sich die Fehlervideos an. Identifizieren Sie den konkreten Staat, in dem die Richtlinie fehlschlägt. Sammeln Sie dort gezielt Daten.
Die wichtigste Erkenntnis des Schwungrads: Zielgerichtete Daten schlagen zufällige Daten. Anstatt 50 weitere zufällige Demonstrationen aufzuzeichnen, schauen Sie sich Ihre Fehlervideos an und identifizieren Sie genau den Moment, in dem etwas schief geht. Zeichnen Sie 20 Demonstrationen auf, die speziell diesen schwierigen Zustand abdecken (z. B. den Griff am Rand des Arbeitsbereichs oder den Gegenstand in einem ungewöhnlichen Winkel). Ihre Erfolgsquote wird sich mit 20 gezielten Demos schneller verbessern als mit 50 zufälligen.
Häufige Fehlermodi und deren Behebung
- Arm schießt über die Griffposition hinaus: Die Aktionsblöcke der Richtlinie sind zu groß oder Ihre Daten wiesen eine hohe Geschwindigkeitsvarianz auf. Nehmen Sie 10 weitere Demos mit langsamer Geschwindigkeit in der Nähe des Griffpunkts auf. Oder reduzieren
chunk_sizevon 100 auf 50 in der Trainingskonfiguration. - Arm ist beim Trainingsobjekt erfolgreich, schlägt jedoch bei etwas anderen Objekten fehl: Ihren Trainingsdaten fehlte die Diversität der Objektpositionen. Nehmen Sie 20 Demos mit dem Objekt an 5 verschiedenen Positionen innerhalb eines Radius von 10 cm auf. Dies lehrt die Politik, zu verallgemeinern.
- Die Richtlinie friert ein oder bringt wiederholte Anträge hervor: Die CVAE-Stilvariable wird ausgeblendet. Dies bedeutet oft, dass Ihr Datensatz zu viel Varianz aufweist – das Modell kann keinen konsistenten Stil finden. Suchen Sie nach gemischten Demonstrationen (verschiedene Operatoren, unterschiedliche Aufgabenrahmen) und bereinigen Sie Ihren Datensatz.
Einheit 6 abgeschlossen, wenn...
Ihr Arm erledigt die Pick-and-Place-Aufgabe in einem strukturierten Auswertungslauf 7 von 10 Mal selbstständig. Sie haben sich die drei Fehlervideos angesehen und festgestellt, was schief gelaufen ist. Sie verstehen das Datenschwungrad gut genug, um Ihre nächste Verbesserungsiteration zu planen. Dies ist das Ende des strukturierten Weges – aber es ist der Anfang Ihrer Roboter-Lernpraxis.
Was kommt als nächstes?
Sie haben das Fundament. Hier erfahren Sie, wohin Sie von hier aus gehen können: