Nachahmungslernen für Roboter: Ein praktischer Leitfaden

Nachahmungslernen hat sich zum vorherrschenden Paradigma entwickelt, um Robotern geschickte Manipulationsfähigkeiten beizubringen. Anstatt Belohnungsfunktionen von Hand zu erstellen oder Bewegungspläne zu schreiben, zeigen Sie dem Roboter einfach, was er tun soll. In diesem Leitfaden wird erläutert, wie es funktioniert, welche Algorithmen verwendet werden müssen und welche Infrastruktur Sie benötigen, um Ergebnisse zu erzielen.

Was ist Nachahmungslernen?

Imitation Learning (IL) – auch Learning from Demonstration (LfD) oder Behavioral Cloning genannt – trainiert eine Richtlinie, um von einem menschlichen Bediener erfasste Aktionen zu reproduzieren. Während der Datenerfassung teleoperiert ein erfahrener Demonstrator den Roboter durch die Zielaufgabe, während Sensoren Gelenkpositionen, Endeffektor-Posen, Kamerabilder und alle anderen relevanten Zustände aufzeichnen. Diese aufgezeichneten Daten werden zum Trainingssatz für eine neuronale Netzwerkrichtlinie.

Der Reiz von IL gegenüber Reinforcement Learning ist praktisch: Sie müssen kein Belohnungssignal entwickeln, Millionen von simulierten Rollouts durchführen oder ein Explorationsproblem mit geringer Belohnung lösen. Wenn ein Mensch die Aufgabe erledigen kann, kann der Roboter sie möglicherweise durch ein paar hundert bis einige tausend Demonstrationen erlernen. Die Herausforderung besteht in der Verallgemeinerung – Strategien, die auf eng begrenzten Demonstrationen trainiert werden, können scheitern, wenn Objektpositionen, Beleuchtung oder Aufgabenvariationen von der Trainingsverteilung abweichen.

Die moderne IL-Forschung begegnet diesem Problem durch bessere Architekturen, größere und vielfältigere Datensätze und vorab trainierte visuelle Darstellungen. Das Gebiet hat sich seit 2023 rasant weiterentwickelt, und Imitationslernen in Produktionsqualität ist jetzt für Teams ohne Zugang zu einem Robotik-Doktorandenprogramm erreichbar.

ACT: Action Chunking mit Transformers

ACT, das zusammen mit der bimanuellen Roboterplattform ALOHA von Stanford eingeführt wurde, behandelt die Robotersteuerung als ein Problem der Sequenzvorhersage. Die Richtlinie prognostiziert einen Teil zukünftiger Aktionen – typischerweise 50–100 Zeitschritte – und nicht eine einzelne nächste Aktion. Dieses Aktions-Chunking reduziert den Compoundierungsfehler, den Hauptfehlermodus des naiven Verhaltensklonens, bei dem sich kleine Vorhersagefehler über eine Flugbahn ansammeln.

ACT verwendet während des Trainings einen CVAE (Conditional Variational Autoencoder), um die Multimodalität menschlicher Demonstrationen zu erfassen – die Tatsache, dass es oft mehr als eine richtige Art und Weise gibt, eine Aufgabe zu erledigen. Zur Inferenzzeit generiert der Decoder Aktionssequenzen, die von den aktuellen Kamerabeobachtungen und dem Gelenkzustand abhängig sind. Das Ergebnis ist eine Richtlinie, die die natürliche Variation bei von Menschen demonstrierten Aufgaben ohne Mode-Averaging-Artefakte bewältigt.

ACT ist ein guter Ausgangspunkt für bimanuelle Manipulationsaufgaben. Es erfordert relativ geringe Datenmengen (50–200 Demonstrationen pro Aufgabe) und trainiert auf einer einzelnen GPU in Stunden. Wenn Sie mit ALOHA-Hardware oder einem ähnlichen bimanuellen Setup arbeiten, sollte ACT Ihr erster Algorithmus sein, den Sie ausprobieren sollten. SVRCs Datendienste umfassen vorverarbeitete ACT-kompatible Datensätze, die auf Plattformen der ALOHA-Klasse gesammelt wurden.

Diffusionspolitik: Umgang mit multimodalen Aktionsverteilungen

Diffusion Policy wendet Score-Matching-Diffusionsmodelle – dieselbe Modellklasse, die Stable Diffusion für Bilder antreibt – auf den Aktionsraum des Roboters an. Anstatt eine einzelne beste Aktion vorherzusagen, lernt die Richtlinie die vollständige Verteilung der Aktionen, die ein menschlicher Demonstrator ergreifen könnte. Zur Inferenzzeit wird ein Entrauschungsprozess ausgeführt, um eine qualitativ hochwertige Aktion aus dieser Verteilung abzutasten.

Der Hauptvorteil gegenüber ACT besteht darin, wie es multimodale Aufgaben bewältigt: Szenarien, in denen ein Mensch ein Objekt von links oder rechts greifen oder sich einem Ziel aus mehreren gültigen Winkeln nähern könnte. Beim standardmäßigen Verhaltensklonen werden diese Modi gemittelt, wodurch eine Richtlinie entsteht, die in die Mitte geht und scheitert. Die Diffusionsrichtlinie greift auf den richtigen Modus im aktuellen Kontext zurück und erzeugt so ein robusteres Verhalten bei mehrdeutigen Aufgaben.

Der Kompromiss ist die Inferenzgeschwindigkeit. Die Diffusionsrichtlinie mit einem UNet-Backbone erfordert standardmäßig 100 Entrauschungsschritte bei der Inferenz, was für eine Echtzeitsteuerung zu langsam sein kann. Die DDIM-Sampler- und Konsistenzdestillationsvarianten reduzieren diese auf 10–25 Schritte, sodass ein Echtzeitbetrieb realisierbar ist. Was die Datenanforderungen angeht, profitiert die Diffusion Policy im Allgemeinen von mehr Demonstrationen als ACT, belohnt jedoch die Vielfalt der Datensätze mehr als die Rohmenge.

Vision-Sprache-Aktionsmodelle: IL im Maßstab

VLAs wie OpenVLA, pi0 und RT-2 erweitern das Nachahmungslernen durch Vortraining auf visuellen und sprachlichen Daten im Internetmaßstab, bevor sie an Roboterdemonstrationen eine Feinabstimmung vornehmen. Das vorab trainierte Rückgrat bietet eine umfassende Darstellung von Objekten, Szenen und Beziehungen, die sich wirkungsvoll auf die Robotermanipulation übertragen lässt. Die Feinabstimmung erfordert weitaus weniger Demonstrationen als eine Schulung von Grund auf – manchmal nur 10–50 aufgabenspezifische Beispiele.

Für Teams, die sich die Rechen- und Lizenzanforderungen leisten können, stellen VLAs die aktuelle Grenze der IL-Leistung dar. Sie lassen sich besser auf neuartige Objekte, neue Umgebungen und sprachspezifische Aufgabenvariationen verallgemeinern. SVRC bietet Feinabstimmungsdatensätze und Teleoperationsinfrastruktur kompatibel mit den Datenformaten, die von den wichtigsten VLA-Trainingspipelines erwartet werden. Sehen Sie sich unsere an Leitfaden zur Erklärung der VLA-Modelle für eine tiefere technische Aufschlüsselung.

Datenanforderungen für Nachahmungslernen

Der minimal brauchbare Datensatz für eine einzelne Manipulationsaufgabe beträgt typischerweise 50 Demonstrationen für ACT, 100–200 für Diffusion Policy und 20–50 für VLA-Feinabstimmung. Hierbei handelt es sich um Bodenschätzungen unter günstigen Bedingungen – gleichmäßige Beleuchtung, feste Kameraperspektiven und Objekte in vorhersehbaren Positionen. Für die reale Bereitstellung sind drei- bis fünfmal mehr Daten erforderlich, um die Schwankungen abzudecken, denen Ihr System in der Produktion ausgesetzt ist.

Datenqualität ist ebenso wichtig wie Quantität. Die Vorführungen sollten von erfahrenen Bedienern durchgeführt werden, die die Aufgabe konsequent und sauber erledigen. Fehlversuche, Zögern und Korrekturen, die als Erfolge in den Trainingssatz aufgenommen werden, beeinträchtigen die Leistung der Richtlinie. SVRCs verwalteter Datenerfassungsdienst bietet geschulte Bediener, qualitätsgefilterte Episodenauswahl und strukturierte Datensatzpaketierung – und erspart Ihrem Technikteam wochenlange Datenpipeline-Arbeit.

Auch die Sensorvielfalt ist wichtig. Auf eine einzelne Handgelenkkamera trainierte Richtlinien schlagen häufig fehl, wenn diese Kamera verdeckt ist. Die beste Vorgehensweise besteht darin, aus mindestens zwei Kameraperspektiven zu erfassen – einer festen Überkopf- oder Seitenansicht und einer am Handgelenk – und neben visuellen Beobachtungen auch den propriozeptiven Zustand (Gelenkwinkel und -geschwindigkeiten) einzubeziehen.

Hardware und Infrastruktur für die IL-Forschung

Der minimale Hardware-Stack für ein Imitation-Learning-Forschungsprojekt umfasst: einen Roboterarm mit ausreichenden Freiheitsgraden für Ihre Aufgabe (mindestens 6-DOF für allgemeine Manipulation), ein Leader-Follower- oder VR-basiertes Teleoperationssystem zur Datenerfassung, zwei oder mehr Kameras und eine Workstation mit mindestens einer NVIDIA-GPU (RTX 3090 oder besser für ACT/Diffusion Policy; A100 oder H100 für die VLA-Feinabstimmung empfohlen).

SVRCs Hardware-Katalog umfasst die OpenArm-Plattform, die mit einem kompatiblen Teleoperations-Führungsarm und Montagematerial für Standardkamerakonfigurationen geliefert wird. Der SVRC-Plattform stellt die Softwareschicht bereit: Episodenaufzeichnung, Datensatzverwaltung, Pipelines für Richtlinienschulungen und Bewertungstools. Teams können über das Hardware für kurzfristige Projekte leasen statt kaufen Roboter-LeasingprogrammDies ist oft der schnellste Weg zu einem funktionierenden IL-Prototyp.

Für Teams, die mit Daten beginnen möchten, bevor sie in Hardware investieren, bietet SVRC Zugriff auf kuratierte Multitasking-Demonstrationsdatensätze, die in unserer Einrichtung in Palo Alto gesammelt wurden. Diese Datensätze decken gängige Manipulationsprimitive ab – Aufnehmen, Platzieren, Gießen, Falten, Zusammenbauen – und sind für die direkte Verwendung mit ACT, Diffusion Policy und Hugging Face LeRobot formatiert. Kontaktieren Sie unser Team um Optionen für den Datensatzzugriff zu besprechen.

Verwandt: VLA-Modelle erklärt · Verbreitungspolitik für Roboterlernen · ALOHA-Roboterführer · Datendienste · Was sind Robotertrainingsdaten?