Roboterlernen

Verbreitungspolitik für Roboterlernen: Was es ist und wie man es nutzt

Diffusion Policy, eingeführt von Chi et al. brachte im Jahr 2023 die Revolution der generativen Modellierung in die Robotersteuerung. Durch die Behandlung der Aktionsgenerierung als Entrauschungsproblem wird die multimodale, hochdimensionale Natur des Manipulationsverhaltens auf eine Weise behandelt, die einfachere Verhaltensklonalgorithmen nicht können. Hier ist, was Sie wissen müssen, um es auf Ihr eigenes Robotikprojekt anzuwenden.

Was ist Verbreitungspolitik?

Diffusion Policy ist eine Klasse von Robotersteuerungsrichtlinien, die auf probabilistischen Modellen zur Rauschunterdrückung (Diffusion Probabilistic Models, DDPMs) basieren – dem gleichen mathematischen Rahmen, der Text-zu-Bild-Modellen wie Stable Diffusion zugrunde liegt. Im Roboterkontext ist das erzeugte „Bild“ eine Abfolge von Roboteraktionen (eine Flugbahn). Ausgehend vom reinen Gaußschen Rauschen im Aktionsraum entrauscht das Modell es iterativ, abhängig von der aktuellen visuellen Beobachtung und dem Roboterzustand, und erzeugt nach 10–100 Entrauschungsschritten eine kohärente, qualitativ hochwertige Aktionssequenz.

Die wichtigste Erkenntnis besteht darin, dass Diffusionsmodelle eine vollständige Wahrscheinlichkeitsverteilung über Aktionen lernen, anstatt eine einzelne beste Aktion vorherzusagen. Für die Robotik ist dies von entscheidender Bedeutung. Menschliche Demonstrationen derselben Aufgabe sind von Natur aus multimodal: Abhängig von subtilen kontextuellen Hinweisen kann eine Person eine Tasse von der linken oder rechten Seite greifen. Ein Modell, das diese Verteilung auf eine einzige Vorhersage reduzieren muss, wird sich entweder auf einen Modus festlegen und in der anderen Hälfte der Zeit scheitern, oder es mittelt die Modi und erzeugt eine bizarre dazwischen liegende Trajektorie, die immer fehlschlägt. Die Diffusionspolitik vermeidet dies, indem sie die Verteilung explizit modelliert und zum Zeitpunkt der Inferenz Stichproben daraus zieht.

Warum die Diffusionspolitik das standardmäßige Verhaltensklonen übertrifft

Standardmäßiges Verhaltensklonen (BC) trainiert eine Richtlinie als überwachtes Regressionsproblem: Angesichts der Beobachtung wird eine Aktion vorhergesagt. Dies funktioniert, wenn die Zuordnung von Beobachtungen zu Aktionen deterministisch und unimodal ist. In der Praxis kommt es selten zu Manipulationsaufgaben. Selbst „einfache“ Aufgaben wie das Aufnehmen eines Blocks von einem Tisch erfordern mehrere gültige Annäherungswinkel, Greifhaltungen und Vorgreifkonfigurationen. Naive BC erzeugt Richtlinien, die an Entscheidungspunkten zögern, kompromittierte Bewegungsentscheidungen treffen oder völlig scheitern, wenn die Testverteilung geringfügig vom Training abweicht.

Die Diffusion Policy übertrifft bei Benchmark-Manipulationssuiten durchweg die BC-Basiswerte. In der Originalarbeit wurden bei 11 von 12 Aufgaben im Robomimic-Benchmark hochmoderne Ergebnisse erzielt, mit besonders großen Margen bei Aufgaben mit hoher Aktionsmultimodalität. Bei realen Roboterbewertungen zeigte die Diffusion Policy ein robusteres Wiederherstellungsverhalten – wenn der Roboter einen leicht falschen Zwischenzustand erreichte, konnte sich die Richtlinie erholen, weil sie aus einer breiten Verteilung Stichproben nahm, anstatt einem deterministischen Pfad zu folgen.

Im Vergleich zu ACT (Action Chunking with Transformers) schneidet Diffusion Policy im Allgemeinen besser bei Aufgaben mit starker Multimodalität ab und schlechter bei Aufgaben mit Abhängigkeiten über einen langen Horizont, bei denen die Chunk-Vorhersage von ACT glänzt. In der Praxis sind beide Algorithmen so wettbewerbsfähig, dass die Qualität und Quantität der Datensätze wichtiger sind als die Wahl der Richtlinienarchitektur. Wenn Sie sich nicht sicher sind, was Sie verwenden sollen, versuchen Sie es zunächst mit ACT, um die Iterationsgeschwindigkeit zu verbessern, und dann mit Diffusion Policy, wenn Sie Fehler bei der Modusmittelung feststellen.

Datenanforderungen für die Verbreitungspolitik

Diffusion Policy profitiert von mehr Daten als ACT, vor allem weil das Entrauschungsnetzwerk über mehr Parameter und ein umfassenderes Modellierungsziel verfügt. Ein praktisches Minimum sind 100–200 Demonstrationen für eine einzelne Aufgabe unter kontrollierten Bedingungen. Um eine robuste Bereitstellungsleistung zu erzielen – Handhabung von Objektpositionsschwankungen, Beleuchtungsänderungen und gelegentlichem Sensorrauschen – planen Sie 300–500 Demonstrationen pro Aufgabe ein. Im Gegensatz zu ACT verbessert sich die Diffusionsrichtlinie tendenziell mit zusätzlichen Daten bis hin zu recht großen Datensätzen weiter, was sie zur besseren Wahl macht, wenn Sie planen, in eine umfangreiche Datenerfassung zu investieren.

Datenvielfalt ist ebenso wichtig wie Volumen. Die Demonstrationen sollten den Bereich der Objektpositionen, Ausrichtungen und Szenenkonfigurationen abdecken, die Sie bei der Bereitstellung erwarten. Eine enge Ansammlung von Demonstrationen mit Objekten, die sich immer genau an der gleichen Stelle befinden, führt zu einer Strategie, die in dem Moment scheitert, in dem ein Objekt um einige Zentimeter bewegt wird. SVRCs verwalteter Datenerfassungsdienst folgt strukturierten Variationsprotokollen – systematische Zufallsverteilung von Objektpositionen, Lichtverhältnissen und Griffstilen des Bedieners – um sicherzustellen, dass Datensätze verallgemeinerbare Richtlinien erzeugen.

Auch die Beobachtungsdarstellung ist von großer Bedeutung. Die Diffusionsrichtlinie mit einem durchgängig trainierten ResNet-Bildencoder übertrifft im Allgemeinen Richtlinien mit eingefrorenen vorab trainierten Encodern bei engen Aufgabenverteilungen, aber vorab trainierte Encoder (R3M, MVP, DINO) führen zu einer besseren Verallgemeinerung, wenn sich die Testbedingungen vom Training unterscheiden. Beginnen Sie bei den meisten praktischen Projekten mit einem vorab trainierten Encoder, um den Wert Ihres Datensatzes zu maximieren, und wechseln Sie nur dann zum End-to-End-Training, wenn Sie über 500 Demonstrationen und eine stabile Umgebung haben.

Schulungsaufbau und Rechenanforderungen

Die Referenzimplementierung von Diffusion Policy (verfügbar im Columbia Robotics Lab GitHub) trainiert entweder mit einem UNet-Backbone (schnellere Inferenz, geringere Kapazität) oder einem Transformer-Backbone (langsamerer Inferenz, höhere Kapazität). Für die meisten Einzelaufgabenprojekte ist die UNet-Variante der richtige Ausgangspunkt. Das Training auf einer einzelnen RTX 3090 oder 4090 dauert je nach Beobachtungsauflösung und Aktionshorizontlänge 4–12 Stunden für einen Datensatz mit 200 Episoden.

Wichtige Hyperparameter, die richtig eingestellt werden müssen: der Aktionshorizont (wie viele zukünftige Schritte vorhergesagt werden sollen – typischerweise 16–32 für Tabletop-Aufgaben), die Anzahl der Diffusionsschritte (100 für DDPM, 10–25 für DDIM mit minimalem Qualitätsverlust) und das Beobachtungsfenster (wie viele vergangene Frames einbezogen werden sollen – typischerweise 2). Ändern Sie nicht alle drei auf einmal. Reparieren Sie die anderen, wenn Sie eines abstimmen. Die wirkungsvollste Änderung zur Verbesserung der Richtlinienleistung ist normalerweise die Erhöhung der Datensatzgröße und nicht die Optimierung der Architektur-Hyperparameter.

Für Rückschlüsse auf einen echten Roboter ist DDPM bei 100 Schritten normalerweise zu langsam für eine Hochfrequenzsteuerung. Verwenden Sie den DDIM-Scheduler mit 10–25 Schritten, der auf einer RTX 3090 mit ~20 Hz läuft – ausreichend für 10-Hz-Steuerung mit Puffer. Alternativ kann durch die Destillation von Konsistenzrichtlinien eine 1–3-stufige Inferenz mit minimaler Leistungseinbuße für einfachere Aufgaben erreicht werden.

Verwendung von SVRC-Datendiensten für die Diffusionsrichtlinie

SVRCs Datendienst-Pipeline Erstellt Datensätze, die für die direkte Verwendung mit der Diffusion Policy-Referenzimplementierung und dem HuggingFace LeRobot-Framework formatiert sind. Episoden werden als ZARR-Archive mit synchronisierten Bildströmen, propriozeptivem Zustand und Aktionen bei 50 Hz gespeichert. Durch die Qualitätsfilterung werden Episoden entfernt, in denen die Aufgabe nicht erfolgreich abgeschlossen wurde, der Roboter mit der Umgebung kollidierte oder das Zögern des Bedieners zu nicht repräsentativen Flugbahnen führte.

Unser Inkassodienst nutzt die SVRC-Teleoperationsplattform mit Dual-Arm-fähiger Leader-Follower-Steuerung, am Handgelenk montierten und Overhead-Kameras und optionaler Kraft-Momenten-Aufzeichnung. Für Diffusion Policy-Schulungen mit mehreren Aufgaben, bei denen eine einzelne Richtlinie abhängig von der Aufgaben-ID oder der Sprache mehrere Aufgaben erlernt, können wir verschiedene Aufgabenvarianten innerhalb derselben Kampagne sammeln und einen einheitlichen Datensatz liefern. Teams, die mit den Hardwareplattformen OpenArm oder ALOHA arbeiten, erhalten native Hardwareunterstützung; Eine kundenspezifische Hardware-Integration ist auf Anfrage möglich. Kontaktieren Sie unser Team um Ihre Datenanforderungen und Ihren Zeitplan zu besprechen.