Einheit 6: Führen Sie Ihre bimanuelle Richtlinie aus und verbessern Sie sie – DK1-Lernpfad

Inferenz-Setup für zwei Arme

Bei der bimanuellen Inferenz wird ein einzelnes Richtliniennetzwerk ausgeführt, das Aktionen für beide Arme gleichzeitig ausgibt. Die Beobachtungs-Aktionsschleife läuft mit 50 Hz – der gleichen Frequenz wie Ihre Trainingsdaten – wobei beide Follower-Arme ihre jeweiligen Aktionsblöcke synchron ausführen.

Welche ~/dk1-env/bin/activate

# Keep your hand near the E-stop for the first 3 evaluation episodes

python -m lerobot.scripts.eval \ --policy-checkpoint ~/dk1-policies/cube-handoff-v1/checkpoint_XXXXX \ --robot-path ~/dk1-config.yaml \ --robot-type dk1_bimanual \ --device cuda \ --num-eval-episodes 10 \ --record-video \ --output-dir ~/dk1-evals/v1

# Replace XXXXX with your best checkpoint step (from Unit 5 loss curve analysis)
# --record-video saves both arm views as separate mp4 files for failure analysis

Lassen Sie beim ersten Evaluierungslauf zu, dass die Richtlinie ohne Unterbrechung ausgeführt wird, es sei denn, es droht eine physische Kollision. Bimanuelle Richtlinien führen in den ersten ein bis zwei Episoden häufig zu unerwarteten Bewegungen, da sie sich an die reale Umgebung anpassen. Die Episoden 3–10 sind die aussagekräftigen Auswertungsdaten. Beachten Sie, ob die Richtlinie auch dann konsequent die gleichen Phasen der Aufgabe erreicht (Annäherung, Erfassung, Transfer, Ort, Zuhause), wenn sie letztendlich fehlschlägt – Teilerfolg ist diagnostische Information.

Bimanuelles Bewertungsprotokoll

Verwenden Sie ein strukturiertes Protokoll. Eine informelle Bewertung – „es sieht so aus, als ob es funktioniert“ – ist bei bimanuellen Richtlinien unzuverlässig, da Teilerfolge viel häufiger vorkommen und eine grundlegend fehlerhafte Übergabe verschleiern können.

Protokollelement	Bimanuelle Spezifikation
Anzahl der Episoden	10 mindestens; 20 für hochzuverlässige Ergebnisse, bevor weitere Daten hinzugefügt werden
Ausgangsposition des Würfels	Feste, mit Klebeband markierte Position – identisch mit Ihrem Trainingsaufbau für Einheit 4
Beleuchtung	Muss den Trainingsbedingungen entsprechen. Selbst das Öffnen eines Fensters kann die Lichtverhältnisse so weit verändern, dass die Kamera am Arbeitsplatz beeinträchtigt wird
Was als voller Erfolg gilt	Würfel beginnt auf der rechten Seite, endet auf der linken Seite, beide Arme kehren in die Ausgangshaltung zurück, kein menschlicher Kontakt während der Episode
Was als Teilerfolg gilt	Korrekter Griff erreicht, aber der Transfer schlägt fehl, oder der Transfer gelingt, die Platzierung ist jedoch außerhalb des Ziels. Protokollieren Sie diese separat.
Fehlerklassifizierung	Protokoll: (A) Greiffehler, (B) Übergabefehler – Arm-zu-Arm-Transfer fällt ab, (C) Platzierungsfehler, (D) Zeitüberschreitung. Die Übergabefehlerkategorie (B) gilt nur für bimanuelle Verfahren und ist äußerst informativ für Verbesserungen.
Berichtsmetrik	Volle Erfolgsquote (Folgen mit allen 4 Phasen korrekt). Geben Sie auch die teilweise Erfolgsquote an. Beispiel: „4/10 voll, 7/10 erreicht Übergabephase“.

Häufige bimanuelle Fehlermodi

Diese Fehlermodi unterscheiden sich von einarmigen Fehlern und erfordern bimanuelle spezifische Korrekturen:

Arme kommen asynchron am Übergabepunkt an: Ein Arm erreicht die Übergabeposition und wartet; der andere kommt zu spät. Die Politik hat den relativen Zeitpunkt zwischen den Waffen nicht gelernt. Fix: Fügen Sie 20 Demonstrationen hinzu, bei denen beide Arme am Übergabepunkt explizit für 1–2 Sekunden innehalten, bevor die Übertragung abgeschlossen wird. Dadurch wird die Synchronisierungsanforderung in den Daten explizit gemacht.
Handoff Drop – Würfel fällt zwischen die beiden Arme: Der häufigste bimanuelle Fehler. Der empfangende Arm schließt seinen Greifer zu früh oder zu spät im Vergleich zur Freigabe des gebenden Arms. Fix: Sammeln Sie 15 Handoff-Demonstrationen in Zeitlupe, speziell mit 25 % Geschwindigkeit. Das übertriebene Timing gibt der Richtlinie ein klareres Signal über die Übergangssequenz des Gripperzustands.
Die Politik konvergiert zu einer einarmigen Strategie: Die Richtlinie lernt, die Aufgabe nur mit einem Arm zu erledigen und ignoriert dabei die Fähigkeiten des anderen Arms. Dies geschieht, wenn die Demonstrationen eines Arms konsistenter sind als die des anderen. Fix: Überprüfen Sie die Aktionsfehler jedes Arms anhand der Trainingskurven (Einheit 5) und sammeln Sie zusätzliche Demos, die speziell auf die Phasen des schwächeren Arms abzielen.
Kollision zwischen den Armen: Beide Arme versuchen, die gleiche Position im Arbeitsbereich einzunehmen. Dies ist ein Sicherheitsereignis – aktivieren Sie die Kollisionsvermeidung im DK1-Hardwareserver (collision_avoidance: true in dk1-config.yaml) während der Auswertung. Durch Schulungen zu Demonstrationen, bei denen die sichere Armtrennung stets beachtet wird, können die meisten Kollisionen verhindert werden. Der Schutz auf Hardwareebene behandelt Randfälle.
Phasendesynchronisation beim Einsatz: Die Richtlinie führt die richtigen Aktionen aus, jedoch nicht in der richtigen zeitlichen Reihenfolge – z. B. der rechte Arm wird platziert, bevor der linke Arm übertragen wurde. Hierbei handelt es sich um ein Aktions-Chunking-Artefakt, bei dem die Chunk-Grenzen nicht mit den Aufgabenphasenübergängen übereinstimmen. Fix: reduzieren chunk_size von 100 auf 50 und umschulen.

Das Datenschwungrad zur bimanuellen Verbesserung

Die gleiche Verbesserungsschleife, die für einarmige Policen funktioniert, funktioniert auch für bimanuelle Policen – mit einer bimanuellen spezifischen Ergänzung: Zielen Sie immer auf die Erste Fehlermodus in der Tasksequenz. Die Übergabe (Phase B) kann nicht verbessert werden, wenn der Griff (Phase A) immer noch inkonsistent ist. Beheben Sie Fehler in der Tasksequenzreihenfolge.

Auswerten

10 Episoden laufen lassen. Klassifizieren Sie jeden Fehler nach Phase (A/B/C/D)

Ziel

Identifizieren Sie die erste Fehlerphase. Sammeln Sie 20–30 Demos, die speziell diese Phase abdecken

Umschulen

Fügen Sie gezielte Demos zum Datensatz hinzu. Trainieren Sie von Grund auf neu oder optimieren Sie den besten Kontrollpunkt

Auswerten

Wiederholen Sie 10 Episoden. Hat sich die volle Erfolgsquote verbessert? Fahren Sie mit der nächsten Fehlerphase fort.

Was kommt als nächstes?

Sie verfügen jetzt über eine funktionierende bimanuelle Lernpipeline. Die Cube-Übergabe ist die Grundlage – dieselbe Architektur lässt sich auf wesentlich komplexere Aufgaben skalieren:

Teleoperation mit variabler Geschwindigkeit

Geschwindigkeitsadaptive Teleoperation für kontaktreiche Aufgaben, bei denen Force Feedback die optimale Bewegungsgeschwindigkeit ändert.

Fügen Sie geschickte Hände hinzu

Kombinieren Sie die DK1-Arme mit der Orca-Hand für Fingerfertigkeit bei Aufgaben, die eine präzise Handhabung in der Hand erfordern.

Skalieren Sie Ihren Datensatz

Techniken zur Skalierung der bimanuellen Datenerfassung über Bediener, Aufgaben und Hardwarekonfigurationen hinweg.

Teilen Sie Ihre Ergebnisse

Veröffentlichen Sie Ihre Erfolgsquote, Ihren Datensatz und Ihre Richtlinie im DK1-Forum. Bimanuelle Ergebnisse gehören zu den wertvollsten, die die Community sammelt.

Einheit 6 abgeschlossen, wenn...

Ihr DK1 erledigt die Würfelübergabe-Aufgabe selbstständig mit einer vollen Erfolgsquote von mindestens 6/10 in einem strukturierten Evaluierungslauf. Sie haben alle Fehlerepisoden nach Phase (A/B/C/D) klassifiziert und ermittelt, welche Phase für die meisten Fehler verantwortlich ist. Sie haben sich die Fehlervideos angesehen und können konkret formulieren, was schief gelaufen ist. Sie verstehen das bimanuelle Datenschwungrad gut genug, um Ihre nächste Verbesserungsiteration zu planen.

Sie haben ein funktionierendes bimanuelles Roboter-Lernsystem gebaut.

Sie haben eine Leader/Follower-Architektur konfiguriert, synchronisierte zweiarmige Demonstrationen gesammelt, eine koordinierte Richtlinie von Grund auf trainiert und sie auf echter Hardware bereitgestellt. Bimanuelle Manipulation auf dieser Ebene ist die Aufgabe von Forschungslaboren. Die Grundlage, die Sie hier geschaffen haben, lässt sich auf Montage-, Koch- und kontaktreiche Aufgaben übertragen, die vor Beginn dieses Weges unerreichbar waren.