Einheit 5: Trainieren Sie Ihre erste Richtlinie – OpenArm-Lernpfad

Was Nachahmungslernen tatsächlich bewirkt

Bevor Sie den Trainingsbefehl ausführen, nehmen Sie sich zwei Minuten Zeit, um zu verstehen, was das Modell tatsächlich lernt. Imitationslernen trainiert ein Richtliniennetzwerk, um Beobachtungen (Kamerabilder + aktueller Gelenkzustand) auf Aktionen (nächste Gelenkwinkel) abzubilden. Das Netzwerk erhält niemals ein Belohnungssignal – es sieht nur Ihre Demonstrationen und lernt, die Verteilung der Aktionen zu reproduzieren, die Sie in ähnlichen Zuständen durchgeführt haben.

ACT (Action Chunking with Transformers) sagt a voraus Brocken von 100 zukünftigen Aktionen auf einmal statt eines einzelnen Schritts. Dies verhindert eine Fehlerakkumulation über die gesamte Episode hinweg: Selbst wenn eine einzelne Vorhersage leicht abweicht, bietet der Block einen stabilen Trajektorienpuffer. Anschließend wird alle 100 Zeitschritte (2 Sekunden bei 50 Hz) eine Neuplanung durchgeführt. Aus diesem Grund bewältigt ACT längere Aufgaben besser als das einfache Klonen von Verhalten.

Den vollständigen theoretischen Hintergrund finden Sie hier Grundlagen des Nachahmungslernens in der Robotik-Bibliothek.

GPU oder CPU?

Das Training auf einer NVIDIA-GPU mit 8 GB+ VRAM dauert für 100.000 Schritte etwa 45 Minuten. Das Training auf der CPU dauert für denselben Lauf 3–4 Stunden. Beide liefern die gleiche Modellqualität – die GPU ist nur schneller. Wenn Sie keine lokale GPU haben, funktioniert der Trainingsbefehl auf einer Cloud-Instanz (Lambda Labs oder Google Colab mit A100-Laufzeit) identisch. Anweisungen finden Sie in der README-Datei des LeRobot-Repos.

Trainieren Sie ACT an Ihrem Datensatz

Führen Sie das Trainingsskript in Ihrer virtuellen Umgebung aus. Die folgenden Konfigurationswerte sind für Pick-and-Place-Datensätze mit 50 Episoden auf OpenArm kalibriert – ändern Sie sie beim ersten Durchlauf nicht:

Quelle ~/openarm-env/bin/activate python -m lerobot.scripts.train \ --dataset-path ~/openarm-datasets/pick-and-place \ --policy act \ --batch-size 8 \ --lr 1e-5 \ --num-train-steps 100000 \ --eval-freq 5000 \ --save-freq 10000 \ --log-freq 500 \ --output-dir ~/openarm-policies/pick-and-place-v1

# Training will print loss every 500 steps and eval results every 5000 steps
# Checkpoints saved every 10k steps to ~/openarm-policies/pick-and-place-v1/

Beginnen Sie mit dem Training und überwachen Sie dann die Leistung. Sie müssen es nicht die ganze Zeit ansehen – schauen Sie aber alle 20–30 Minuten noch einmal vorbei, um sicherzustellen, dass der Verlust abnimmt und der Lauf nicht abgestürzt ist. Das Training kann über Nacht im Schlaf stattfinden.

Trainingskurven verstehen

Die Trainingsergebnisse von ACT zeigen zwei Schlüsselkennzahlen. Lernen Sie, sie richtig zu lesen – sie sagen Ihnen, ob Ihr Training gesund ist und wann Sie aufhören sollten.

Trainingsverlust

Sollte in den ersten 20.000 Schritten stark abnehmen und dann langsamer weiter abnehmen. Ein Verlust, der über 0,05 liegt, weist normalerweise auf Probleme mit der Datenqualität hin – überprüfen Sie Ihren Datensatz. Ein Verlust, der stark schwankt, deutet darauf hin, dass Ihre Lernrate zu hoch ist.

Evaluierungserfolgsrate

Erscheint alle 5.000 Schritte (erfordert einen physischen Arm oder eine Simulation). Das ist die Zahl, die wirklich zählt. Sie möchten, dass dieser Wert vor der Bereitstellung über 70 % liegt. Oft kommt es zu einem Trainingsverlust – der Verlust kann gut aussehen, während sich die Erfolgsquote noch verbessert.

Aktion MSE

Mittlerer quadratischer Fehler zwischen vorhergesagten und fundierten Aktionen. Sollte für eine gut trainierte Pick-and-Place-Politik unter 0,01 fallen. MSE mit hoher Aktion nach 80.000 Schritten bedeutet, dass das Modell Probleme mit der Aufgabenkomplexität hat oder Ihre Daten inkonsistent sind.

KL-Divergenz (ACT-spezifisch)

ACT verwendet ein CVAE mit einem KL-Gewicht, das während des Trainings von 0 auf 10 getempert wird. Achten Sie darauf, dass sich die Bewegung bei Schritt 40k stabilisiert. Wenn es nie konvergiert, kann das Modell den Stil nicht kodieren – versuchen Sie, weitere Daten hinzuzufügen.

Wann sollte man mit dem Training aufhören?

Laufen Sie nicht einfach 100.000 Schritte und bleiben Sie stehen. Verwenden Sie diese Signale, um zu entscheiden, wann Ihr Kontrollpunkt für den Einsatz bereit ist:

Die Erfolgsquote der Evaluierung hat bei drei aufeinanderfolgenden Evaluierungen ein Plateau erreicht — Das Modell ist konvergiert. Ohne mehr oder andere Daten hilft keine weitere Schulung.
Die Erfolgsquote der Evaluierung liegt über 70 %. – Dies ist der Schwellenwert für den Einsatz von Einheit 6. Wenn Sie bei 60.000 Schritten 70 % erreichen, können Sie vorzeitig anhalten und diesen Kontrollpunkt einsetzen.
Der Schulungsverlust nimmt immer noch ab, aber die Bewertung ist gleichbleibend oder rückläufig – Das Modell ist überpassend. Nehmen Sie den letzten Kontrollpunkt, an dem die Bewertung ihren Höhepunkt erreichte. Dies ist der beste Kontrollpunkt.
Nach 100.000 Schritten – Wenn die Erfolgsquote unter 40 % liegt, kehren Sie zu Einheit 4 zurück. Das Datenproblem ist zu diesem Zeitpunkt wahrscheinlicher als ein Trainingsproblem.

Optionale Tieftauchgänge

Jenseits von ACT – Diffusionspolitik und π₀

Sobald Sie über eine funktionierende ACT-Richtlinie verfügen, ist das nächste natürliche Experiment die Diffusionsrichtlinie. Es bewältigt multimodale Aufgaben besser (z. B. kann sich der Arm aus zwei Winkeln dem Objekt nähern), allerdings auf Kosten einer langsameren Schlussfolgerung. Der Bereich SVRC-Forschung deckt beides ab. Durchsuchen Sie Forschungsartikel →

Einheit 5 abgeschlossen, wenn...

Das Training ist abgeschlossen (oder Sie haben es an einem guten Kontrollpunkt gestoppt). Ihre Evaluierungserfolgsquote bei der Pick-and-Place-Aufgabe liegt bei über 70 %. Sie haben einen gespeicherten Kontrollpunkt unter ~/openarm-policies/pick-and-place-v1/ und Sie wissen, welche Schrittnummer Ihr bestes Ergebnis erbracht hat. Sie sind bereit, diese Richtlinie in Einheit 6 auf den eigentlichen Arm anzuwenden.