Politische Entscheidungen
LeRobot liefert drei produktionsbereite Richtlinienarchitekturen. Wählen Sie eine aus, bevor Sie mit dem Training beginnen – Sie können nicht mitten im Lauf wechseln.
ACT
Action Chunked Transformers. Am besten für geschickte einarmige Manipulation geeignet. Trainiert in 1–3 Stunden auf der GPU. Vorhersehbare Hyperparameter. Benutzen Sie dies.
Verbreitungspolitik
Höhere Spitzengenauigkeit bei Präzisionsaufgaben, aber 3–5x langsamer beim Trainieren und Ableiten. Verwenden Sie es, nachdem Sie über eine funktionierende ACT-Basislinie verfügen.
SmolVLA
Sprachbedingtes VLA. Verwenden Sie diese Option, wenn Ihre Aufgabe Anweisungen in natürlicher Sprache oder eine Verallgemeinerung mehrerer Aufgaben erfordert. Erfordert mehr Daten.
ACT-Trainingskommando
Ersetzen $HF_USER/pick-place-v1 mit Ihrer Datensatz-Repo-ID aus Einheit 3.
Empfohlene Hyperparameter für einarmiges Pick-and-Place
| Parameter | Empfohlen | Warum |
|---|---|---|
| num_steps | 50000 | Ausreichend für 50–100 Demos eines einfachen Pick-and-Place. Erhöhen Sie den Betrag auf 80.000, wenn Ihr Verlustplateau zu spät eintritt. |
| Batch_Größe | 32 | Standard für einarmige Datensätze. Reduzieren Sie auf 16, wenn Ihnen der GPU-Speicher ausgeht. |
| chunk_size | 100 | ACT plant 100 Schritte voraus. Bei 30 Bildern pro Sekunde sind das etwa 3,3 Sekunden – ein guter Planungshorizont für Pick-and-Place. |
| n_action_steps | 100 | Muss mit chunk_size übereinstimmen. Reduziert die Inferenzhäufigkeit und sorgt für eine reibungslosere Ausführung. |
| kl_weight | 10 | LeRobot-Standard. Nicht ändern, es sei denn, L_kl bleibt nach 20.000 Schritten nahe Null. |
| lr | 1e-5 | LeRobot-Standard für ACT. Senken Sie den Wert auf 5e-6, wenn der Rekonstruktionsverlust schwankt statt konvergiert. |
Trainingsprotokolle lesen
Trainingsprotokolle werden auf dem Terminal und auf TensorBoard gedruckt. Starten Sie TensorBoard in einem zweiten Terminal:
Dann öffnen http://localhost:6006 in Ihrem Browser. Sehen Sie sich diese Kurven an:
Verlust/Wiederaufbau (L_recon)
Das primäre Trainingssignal. Sollte in 50.000 Schritten von ~2,5–3,5 auf unter 0,1 sinken. Ein Plateau über 0,15 nach 40.000 Schritten bedeutet normalerweise, dass Ihr Datensatz zu viel Varianz aufweist – sehen Sie sich die guten Demo-Praktiken von Einheit 3 an und erwägen Sie die Aufzeichnung konsistenterer Demonstrationen.
Burg/kl (L_kl)
Steigt langsam von etwa 0 auf 5–20. Dies ist das erwartete Verhalten – der CVAE lernt eine Einbettung im kompakten Stil. Liegt der Wert über 40, weisen Ihre Demonstrationen eine zu große Verhaltensvielfalt auf. Wenn er nach 20.000 Schritten nahe 0 bleibt, lernt der CVAE nicht; Erhöhe kl_weight auf 20.
Zug/Schaden (Totalschaden)
L_recon + kl_weight × L_kl. Im frühen Training dominiert von L_recon. Sollte monoton abnehmen. Ein Gesamtverlust, der nach einem anfänglichen Rückgang ansteigt, weist darauf hin, dass der Lernratenabfall zu aggressiv ist – überprüfen Sie die Scheduler-Konfiguration.
Checkpoint-Management
Kontrollpunkte sparen alle 5.000 Schritte ~/lerobot-policies/pick-place-v1/checkpoints/. Gehen Sie nicht davon aus, dass der letzte Kontrollpunkt der beste ist. Bei hohen Schrittzahlen kann es zu einer Überanpassung der Richtlinie kommen, insbesondere bei kleinen Datensätzen.
Identifizieren Sie nach dem Training Ihren besten Kontrollpunkt: Dies ist der Schritt, bei dem die L_Rekonstruktion ihr Minimum erreicht hat, bevor sie ein Plateau erreicht. Bei 50 Demonstrationen geschieht dies typischerweise im Bereich von 35.000–50.000 Schritten. Speichern Sie diese Schrittnummer – Sie werden sie in Einheit 5 verwenden.
Einheit 4 abgeschlossen, wenn...
Das Training hat 50.000 Schritte abgeschlossen und Kontrollpunkte sind gespeichert ~/lerobot-policies/pick-place-v1/checkpoints/. Der endgültige L_Rekonstruktionsverlust liegt unter 0,1. Sie haben anhand der Verlustkurven Ihren besten Checkpoint-Schritt ermittelt. Du verstehst, was L_kl in deinem Trainingslauf macht. Sie sind bereit, die Richtlinie in Einheit 5 zu bewerten.