ACT-Richtlinie erklärt: Action Chunking mit Transformern für Roboterlernen

ACT – Action Chunking with Transformers – wurde nach seiner Veröffentlichung durch Tony Zhao und Mitarbeiter in Stanford zu einem der am weitesten verbreiteten Imitationslernalgorithmen für geschickte Manipulation. Hier finden Sie eine praktische Erklärung zur Funktionsweise und Verwendung.

Was ist ACT?

ACT ist ein Imitationslernalgorithmus, der für feinkörnige Manipulationsaufgaben entwickelt wurde, bei denen der Roboter auf der Grundlage visueller Beobachtungen sanfte, koordinierte Bewegungen ausführen muss. Zur Inferenzzeit nimmt ACT eine Bildfolge von den Kameras des Roboters und den aktuellen Gelenkzustand auf und gibt einen Teil zukünftiger Aktionen aus – eine kurze Folge von Gelenkpositionszielen – und nicht eine einzelne nächste Aktion. Der Roboter führt diesen Block aus und fragt dann die Richtlinie für den nächsten Block erneut ab. Dieses Design, das viele Schritte im Voraus vorhersagt, ist das bestimmende Merkmal von ACT und die Quelle der meisten seiner Vorteile gegenüber dem einfacheren Klonen von Verhalten.

ACT wurde im Zusammenhang mit dem bimanuellen Manipulationssystem ALOHA eingeführt und zeigte Erfolge bei Aufgaben, die zuvor als unerreichbar für Nachahmungslernen galten: Einsetzen einer Batterie, Öffnen eines Ziploc-Beutels, Einfädeln einer Nadel. Seine Kernerkenntnis – dass die Chunked-Action-Vorhersage Compoundierungsfehler reduziert und Trajektorien glättet – wurde seitdem in zahlreichen Folgealgorithmen übernommen.

So funktioniert Action Chunking

Beim Standard-Verhaltensklonen (BC) wird eine Richtlinie trainiert, um anhand der aktuellen Beobachtung die nächste Einzelaktion vorherzusagen. Zum Zeitpunkt der Inferenz häufen sich Vorhersagefehler: Jeder kleine Fehler verschiebt den Zustand des Roboters leicht und bringt ihn in eine Verteilung, auf die die Richtlinie nicht trainiert wurde, was dazu führt, dass die nächste Vorhersage schlechter ausfällt, und so weiter. Dieser zusammengesetzte Fehler ist der zentrale Fehlermodus der naiven BC bei Feinmanipulationsaufgaben.

Action Chunking unterbricht diesen Zyklus, indem es eine Abfolge von k zukünftigen Aktionen vorhersagt – typischerweise 50–100 Schritte bei 50 Hz, entsprechend 1–2 Sekunden Bewegung. Die Richtlinie verpflichtet sich zu diesem Plan und führt ihn vor der erneuten Abfrage aus. Da der Plan aus einer einzigen konsistenten Beobachtung erstellt wurde, ist die Flugbahn glatt und in sich konsistent. Die zeitliche Zusammenstellung – die Mittelung überlappender Aktionsblöcke aus mehreren erneuten Abfragen – sorgt für eine weitere Glättung der Ausführung und reduziert den Jitter an den Grenzen zwischen Blöcken.

ACT-Architektur

ACT verwendet eine CVAE-Architektur (Conditional Variational Autoencoder). Während des Trainings verarbeitet ein Encoder die gesamte Demonstrationsbahn – Bilder, Gelenkzustände und Aktionen – und erzeugt eine latente Stilvariable z, die den „Stil“ der Demonstration erfasst (schnell vs. langsam, linksgerichteter vs. rechtsgerichteter Ansatz usw.). Ein transformatorbasierter Decoder übernimmt dann die aktuelle Beobachtung, das latente Z und die Positionskodierungen und sagt den Aktionsblock voraus. Zum Zeitpunkt der Inferenz wird z auf Null gesetzt (der Mittelwert des vorherigen Werts), wodurch die Richtlinie angesichts der Beobachtung deterministisch wird.

Das Vision-Backbone ist typischerweise ein ResNet-18, das jede Kameraansicht unabhängig verarbeitet, wobei die resultierenden Feature-Maps als Token an den Transformer-Decoder übergeben werden. Mehrere Kameraansichten – Handgelenkkameras und Overhead-Kameras – tragen jeweils einen Token-Stream bei und liefern der Polizei umfassende räumliche Informationen über den Manipulationsort.

Datenanforderungen und was gute Daten ausmacht

ACT funktioniert in den meisten veröffentlichten Ergebnissen gut mit 50–200 Demonstrationen pro Aufgabe. Allerdings ist die Qualität der Daten wichtiger als die Quantität. Demonstrationen sollten reibungslos und zielgerichtet sein – die ACT-Richtlinie lernt, welches Bewegungsmuster in den Daten enthalten ist, einschließlich Zögern, Korrekturen und suboptimalen Ansätzen. SVRCs Datenerfassungsstandard erfordert, dass Bediener eine Episode neu starten, anstatt nach einem sichtbaren Fehler fortzufahren, um sicherzustellen, dass der Trainingsdatensatz nur absichtliche, erfolgreiche Verhaltensweisen enthält.

Auch die Kamerakonsistenz ist entscheidend. Wenn sich die Kameraposition zwischen Aufzeichnungssitzungen ändert, stimmen die von der Richtlinie erlernten visuellen Funktionen nicht mehr mit dem Bereitstellungssetup überein. Verwenden Sie physische Halterungen anstelle flexibler Arme und protokollieren Sie die Kamerakalibrierungsparameter mit jedem Datensatz. Die Multikamera-Aufzeichnungspipeline von SVRC erzwingt dies automatisch.

ACT vs. Verhaltensklonen: Ergebnisse

Bei den ursprünglichen ALOHA-Aufgaben erzielte ACT bei denselben Daten Erfolgsraten von 80–95 %, verglichen mit 20–50 % bei Standard-BC. Die Verbesserung ist am deutlichsten bei Aufgaben, die ein präzises Timing, eine reibungslose Koordination zwischen zwei Armen und eine sanfte Erholung nach kleinen Störungen erfordern. Bei einfacheren Pick-and-Place-Aufgaben mit toleranten Toleranzen verringert sich die Lücke zwischen ACT und BC. ACT übertrifft die Diffusionsrichtlinie auch bei Aufgaben, bei denen es auf die Ausführungsgeschwindigkeit ankommt, da diffusionsbasierte Richtlinien mehr Berechnungen pro Inferenzschritt erfordern.

Training von ACT mit SVRC-Daten

SVRCs Datenplattform exportiert Datensätze im LeRobot-kompatiblen HDF5-Format, dem Standardeingabeformat für den Open-Source-ACT-Trainingscode. Nach dem Herunterladen Ihres Datensatzes erfordert das Training einer grundlegenden ACT-Richtlinie eine GPU mit mindestens 16 GB VRAM und etwa 8 Stunden Training für eine einzelne Aufgabe. Der technische Support von SVRC steht zur Verfügung, um Teams bei der Konfiguration von Trainingsläufen, der Optimierung der Blockgröße und der Lernrate sowie der Bewertung der Richtlinienleistung zu unterstützen. Informationen zur Hardware zur Erfassung Ihrer eigenen Daten finden Sie in unserer Hardware-Katalog oder erkunden Roboter-Leasingoptionen.

Verwandt: LeRobot-Leitfaden · Mobiles ALOHA-Setup · Annotation von Roboterdaten · Öffnen Sie die X-Verkörperung