Einheit 5: Bewerten Sie Ihre Richtlinie – LeRobot-Lernpfad

Simulationsbewertung

Bewerten Sie immer zuerst eine Simulation, auch wenn Sie einen echten Roboter haben. Die Sim-Auswertung ist schnell, sicher und liefert Ihnen eine reproduzierbare Ausgangszahl, mit der Sie nach der Umschulung vergleichen können.

Welche ~/lerobot-env/bin/activate

# Evaluate your best checkpoint (replace step_050000 with your checkpoint step)
python -m lerobot.scripts.eval \ --pretrained-policy-name-or-path \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --env.name gym_pusht/PushT-v0 \ --eval.n-episodes 20 \ --eval.use-async-envs false

# Outputs: success_rate, mean_reward, episode_videos/

Was Sie erwartet: Eine gut trainierte Richtlinie für 50 Simulationsdemonstrationen sollte bei MuJoCo eine Erfolgsquote von 60–85 % erreichen. Unter 40 % deuten auf ein Problem mit der Qualität des Datensatzes hin. Über 85 % bedeutet, dass die Aufgabe zu einfach ist oder die Simulationsumgebung zu nachsichtig ist – versuchen Sie es mit einer schwierigeren Variante.

Checkliste für die Sicherheit echter Roboter

Wenn Sie einen echten Roboter evaluieren, gehen Sie diese Checkliste vor Ihrem ersten Rollout durch. Eine ungetestete Richtlinie kann sich auf unerwartete Weise bewegen.

Räumen Sie den Arbeitsbereich von allen Objekten frei, die nicht Teil der Aufgabe sind. Die Richtlinie hat gelernt, in einem bestimmten visuellen Kontext zu agieren – unerwartete Objekte können unberechenbares Verhalten verursachen.
Bleiben Sie an der Nothaltestelle (E-Stop) oder halten Sie sich bereit, während der gesamten Auswertungssitzung Strg+C zu drücken. Gehen Sie einer laufenden Richtlinie nicht aus dem Weg.
Beginnen Sie mit einer auf maximal 50 % begrenzten Geschwindigkeit. Reduzieren Sie den Wert auf 30 %, wenn der erste Versuch ruckartig oder ungenau erscheint.
Positionieren Sie Objekte so, dass sie genau zu Ihrem Trainingsarbeitsbereich passen. Verwenden Sie denselben Kamerawinkel, dieselbe Beleuchtung und dieselben Objektfarben. Verteilungsverschiebungen sind die häufigste Ursache für eine Erfolgsquote von Null in der Praxis.
Bewerten Sie niemals über die physischen Anschlaggrenzen Ihrer Robotergelenke hinaus. Überprüfen Sie diese vor dem ersten Lauf in Ihrer Roboterkonfiguration.

Echtes Roboter-Bewertungsprotokoll

Führen Sie genau 20 Versuche durch. Dadurch erhalten Sie genügend Stichproben für eine zuverlässige Schätzung der Erfolgsquote (±10 % bei einem Konfidenzniveau von 95 %). Zeichnen Sie jeden Versuch auf Video auf – Sie benötigen das Filmmaterial, um Fehlermodi zu diagnostizieren.

# Run the policy on your real robot
python -m lerobot.scripts.control_robot \ --robot-path lerobot/configs/robot/so100.yaml \ --control-mode eval \ --pretrained-policy-name-or-path \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --eval.n-episodes 20 \ --record-video 1

Bewerten Sie nach jedem Versuch manuell: 1 für den vollständigen Erfolg der Aufgabe, 0 für jeden Misserfolg (teilweises Greifen, Fallenlassen, Fehlschläge). Ihre Erfolgsquote ist die Summe dividiert durch 20.

Fehlermodi diagnostizieren

Sehen Sie sich Ihre Videoaufzeichnungen an und kategorisieren Sie Fehler. Die meisten Fehler fallen in eine von drei Kategorien:

Datenqualität

Inkonsistente Annäherungsbahn – der Arm gelangt nie vollständig in den Griff

Die Richtlinie ermittelt den Durchschnitt über mehrere Erfassungsstrategien in Ihren Trainingsdaten. Dies geschieht, wenn sich einige Demonstrationen von links und andere von rechts nähern oder wenn der Zeitpunkt des Schließens des Greifers inkonsistent ist. Fix: Neuaufnahme mit einer einzigen, bewussten Strategie bei allen Demonstrationen.

Modellkapazität

Die Flugbahn sieht vernünftig aus, aber die Präzision weicht durchweg um 1–2 cm ab

Das Modell lernt das richtige Verhalten, es fehlt ihm jedoch die Fähigkeit, präzise zu sein. Dies geschieht, wenn chunk_size zu kurz ist (nicht genügend Planungshorizont) oder wenn dim_feedforward zu klein ist. Fix: chunk_size auf 150 erhöhen, neu trainieren. Oder fügen Sie vielfältigere Demonstrationen hinzu, um das Netzwerk zu regulieren.

Verteilungsverschiebung

Funktioniert in einigen Positionen perfekt, in anderen versagt es völlig

Die Objektpositionen bei der Auswertung liegen außerhalb der Verteilung Ihrer Trainingsdaten. Die Politik hat diese Positionen noch nie zuvor gesehen. Lösung: Sammeln Sie mehr Demonstrationen mit vielfältigeren Objektpositionen oder beschränken Sie Ihre Auswertung auf Positionen, die in Ihren Trainingsdaten gut dargestellt sind.

Einheit 5 abgeschlossen, wenn...

Sie haben 20 Evaluierungsversuche (in der Simulation oder auf Ihrem echten Roboter) durchgeführt und eine Erfolgsquote gemessen. Sie haben sich alle Fehlermodusvideos angesehen und festgestellt, ob der primäre Fehler auf Datenqualität, Modellkapazität oder Verteilungsverschiebung zurückzuführen ist. Sie haben diese Diagnose aufgeschrieben – Sie werden sie als Leitfaden für Ihre Datenerfassung in Einheit 6 verwenden.

Bewerten Sie Ihre Police