Einheit 4: Trainieren Sie eine Richtlinie – LeRobot-Lernpfad

Politische Entscheidungen

LeRobot liefert drei produktionsbereite Richtlinienarchitekturen. Wählen Sie eine aus, bevor Sie mit dem Training beginnen – Sie können nicht mitten im Lauf wechseln.

ACT

Action Chunked Transformers. Am besten für geschickte einarmige Manipulation geeignet. Trainiert in 1–3 Stunden auf der GPU. Vorhersehbare Hyperparameter. Benutzen Sie dies.

Verbreitungspolitik

Höhere Spitzengenauigkeit bei Präzisionsaufgaben, aber 3–5x langsamer beim Trainieren und Ableiten. Verwenden Sie es, nachdem Sie über eine funktionierende ACT-Basislinie verfügen.

SmolVLA

Sprachbedingtes VLA. Verwenden Sie diese Option, wenn Ihre Aufgabe Anweisungen in natürlicher Sprache oder eine Verallgemeinerung mehrerer Aufgaben erfordert. Erfordert mehr Daten.

ACT-Trainingskommando

Ersetzen $HF_USER/pick-place-v1 mit Ihrer Datensatz-Repo-ID aus Einheit 3.

Quelle ~/lerobot-env/bin/activate python -m lerobot.scripts.train \ --policy-type act \ --dataset-repo-id $HF_USER/pick-place-v1 \ --output-dir ~/lerobot-policies/pick-place-v1 \ --config-overrides \ training.num_steps=50000 \ training.eval_freq=5000 \ training.save_freq=5000 \ training.batch_size=32 \ Policy.chunk_size=100 \ Policy.n_action_steps=100

# Add --device cuda if you have a GPU (strongly recommended)
# Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/
# Start this before sleep — it can run unattended

GPU vs. CPU-Trainingszeit: Auf einer RTX 3090 (24 GB) dauern 50.000 Schritte etwa 60–80 Minuten. Auf einer RTX 3080 (10 GB) etwa 90–120 Minuten. Erwarten Sie auf der CPU 8–12 Stunden. Cloud-GPU-Optionen (Lambda Labs, Vast.ai) kosten 0,50–1,50 $/Stunde für die benötigte Hardware.

Empfohlene Hyperparameter für einarmiges Pick-and-Place

Parameter	Empfohlen	Warum
num_steps	50000	Ausreichend für 50–100 Demos eines einfachen Pick-and-Place. Erhöhen Sie den Betrag auf 80.000, wenn Ihr Verlustplateau zu spät eintritt.
Batch_Größe	32	Standard für einarmige Datensätze. Reduzieren Sie auf 16, wenn Ihnen der GPU-Speicher ausgeht.
chunk_size	100	ACT plant 100 Schritte voraus. Bei 30 Bildern pro Sekunde sind das etwa 3,3 Sekunden – ein guter Planungshorizont für Pick-and-Place.
n_action_steps	100	Muss mit chunk_size übereinstimmen. Reduziert die Inferenzhäufigkeit und sorgt für eine reibungslosere Ausführung.
kl_weight	10	LeRobot-Standard. Nicht ändern, es sei denn, L_kl bleibt nach 20.000 Schritten nahe Null.
lr	1e-5	LeRobot-Standard für ACT. Senken Sie den Wert auf 5e-6, wenn der Rekonstruktionsverlust schwankt statt konvergiert.

Trainingsprotokolle lesen

Trainingsprotokolle werden auf dem Terminal und auf TensorBoard gedruckt. Starten Sie TensorBoard in einem zweiten Terminal:

tensorboard --logdir ~/lerobot-policies/

Dann öffnen http://localhost:6006 in Ihrem Browser. Sehen Sie sich diese Kurven an:

Verlust/Wiederaufbau (L_recon)

Das primäre Trainingssignal. Sollte in 50.000 Schritten von ~2,5–3,5 auf unter 0,1 sinken. Ein Plateau über 0,15 nach 40.000 Schritten bedeutet normalerweise, dass Ihr Datensatz zu viel Varianz aufweist – sehen Sie sich die guten Demo-Praktiken von Einheit 3 an und erwägen Sie die Aufzeichnung konsistenterer Demonstrationen.

Burg/kl (L_kl)

Steigt langsam von etwa 0 auf 5–20. Dies ist das erwartete Verhalten – der CVAE lernt eine Einbettung im kompakten Stil. Liegt der Wert über 40, weisen Ihre Demonstrationen eine zu große Verhaltensvielfalt auf. Wenn er nach 20.000 Schritten nahe 0 bleibt, lernt der CVAE nicht; Erhöhe kl_weight auf 20.

Zug/Schaden (Totalschaden)

L_recon + kl_weight × L_kl. Im frühen Training dominiert von L_recon. Sollte monoton abnehmen. Ein Gesamtverlust, der nach einem anfänglichen Rückgang ansteigt, weist darauf hin, dass der Lernratenabfall zu aggressiv ist – überprüfen Sie die Scheduler-Konfiguration.

Checkpoint-Management

Kontrollpunkte sparen alle 5.000 Schritte ~/lerobot-policies/pick-place-v1/checkpoints/. Gehen Sie nicht davon aus, dass der letzte Kontrollpunkt der beste ist. Bei hohen Schrittzahlen kann es zu einer Überanpassung der Richtlinie kommen, insbesondere bei kleinen Datensätzen.

Identifizieren Sie nach dem Training Ihren besten Kontrollpunkt: Dies ist der Schritt, bei dem die L_Rekonstruktion ihr Minimum erreicht hat, bevor sie ein Plateau erreicht. Bei 50 Demonstrationen geschieht dies typischerweise im Bereich von 35.000–50.000 Schritten. Speichern Sie diese Schrittnummer – Sie werden sie in Einheit 5 verwenden.

Einheit 4 abgeschlossen, wenn...

Das Training hat 50.000 Schritte abgeschlossen und Kontrollpunkte sind gespeichert ~/lerobot-policies/pick-place-v1/checkpoints/. Der endgültige L_Rekonstruktionsverlust liegt unter 0,1. Sie haben anhand der Verlustkurven Ihren besten Checkpoint-Schritt ermittelt. Du verstehst, was L_kl in deinem Trainingslauf macht. Sie sind bereit, die Richtlinie in Einheit 5 zu bewerten.