Roboterlernen

Open X-Embodiment: Was es ist und warum es für das Roboterlernen wichtig ist

Open X-Embodiment (OXE) ist der größte offene Datensatz zum kollaborativen Lernen von Robotern, den es gibt. Es wurde von einem Konsortium aus über 30 Forschungseinrichtungen veröffentlicht und stellt den ersten ernsthaften Versuch dar, einen Grundlagendatensatz für allgemeine Roboterrichtlinien zu erstellen – das Robotik-Äquivalent von ImageNet oder The Pile.

Was ist Open X-Embodiment?

Open Der Datensatz umfasst insgesamt über eine Million Episoden, die Hunderte verschiedener Manipulationsaufgaben abdecken: Aufnehmen, Platzieren, Öffnen von Schubladen, Ausgießen von Flüssigkeiten, Abwischen von Oberflächen und mehr.

Das „X“ im Namen steht für Cross-Embodiment: Das entscheidende Ziel von OXE besteht darin, Richtlinien zu trainieren, die Wissen über Roboterkörper hinweg übertragen. Eine Richtlinie, die vorab auf dem gesamten OXE-Datensatz trainiert wurde, hat Manipulationsverhalten bei einer Vielzahl von Armgeometrien, Greifertypen, Kamerakonfigurationen und Aufgabendomänen festgestellt, was ihr einen umfassenden Vorgeschmack verleiht, der mit weitaus weniger Demonstrationen als ein Training von Grund auf auf einen neuen Roboter abgestimmt werden kann.

Beteiligte Institutionen und Zusammensetzung des Datensatzes

Zu den beitragenden Institutionen gehören Stanford, UC Berkeley, Google DeepMind, Carnegie Mellon, MIT, ETH Zürich und viele andere. Jedes Labor steuerte seine vorhandenen Demonstrationsdatensätze in einem standardisierten Format bei. Der Datensatz wird auf Google Cloud Storage gehostet und ist für Forschungszwecke frei verfügbar. Die Größe der Teildatensätze variiert erheblich: Einige Labore steuerten Zehntausende Episoden bei, andere einige Hundert. Die Aufgabenverteilung ist tendenziell eher auf Tisch-Pick-and-Place ausgerichtet, was den gebräuchlichsten Versuchsaufbau widerspiegelt, aber die Vielfalt an Objekten, Lichtverhältnissen und Armkonfigurationen ist wirklich groß.

Der Robotics Transformer 2 (RT-2) und nachfolgende Modelle von Google wurden auf OXE-Daten trainiert und zeigten, dass das verkörperungsübergreifende Vortraining Richtlinien mit deutlich besserer Null-Schuss-Generalisierung erzeugt als das Einzelroboter-Training. Dieses Ergebnis bestätigte die zentrale OXE-Hypothese und beschleunigte die Übernahme von Cross-Embodiment-Datensätzen im gesamten Bereich.

Datensatzformat und RLDS

OXE verwendet das RLDS-Format (Robot Learning Dataset Specification), ein auf TensorFlow-Datensätzen basierendes Schema zum Speichern von Robotertrajektorien. Jede Episode in RLDS ist eine Folge von Schritten, wobei jeder Schritt ein Beobachtungswörterbuch (Bilder, Gelenkzustände, Greiferzustand), einen Aktionsvektor, ein Belohnungssignal und eine Sprachanmerkung zur Beschreibung der Aufgabe enthält. Das Schema ist flexibel genug, um unterschiedliche Beobachtungsmodalitäten und Aktionsräume in verschiedenen Ausführungsformen zu berücksichtigen.

Für die Arbeit mit RLDS ist TensorFlow oder die rlds_creator-Bibliothek erforderlich. LeRobot von Hugging Face bietet Konvertierungsdienstprogramme, um OXE-Daten in sein eigenes Format umzuwandeln und sie so Forschern zugänglich zu machen, die PyTorch bevorzugen. SVRCs Datenplattform exportiert Datensätze in einem Format, das sowohl mit RLDS als auch mit LeRobot kompatibel ist, und ermöglicht so einen unkomplizierten Beitrag zu zukünftigen OXE-Versionen.

So tragen Sie zu OXE bei

Um Ihren Datensatz zu OXE beizutragen, müssen Sie Ihre Demonstrationen in RLDS formatieren, Sprachanmerkungen pro Schritt hinzufügen und zusammen mit Ihrer Datensatzdokumentation eine Pull-Anfrage an das OXE-GitHub-Repository senden. Der Einreichungsprozess umfasst eine Überprüfung der Datenqualität und Formatkonformität. Wenn Ihre Demonstrationen mit SVRC-Datendiensten gesammelt wurden, kann die Plattform RLDS-kompatible Exporte mit standardisierten Metadaten generieren, was den Beitragsprozess erheblich vereinfacht. Kontaktieren Sie die SVRC-Team Hier finden Sie Hinweise zur Vorbereitung Ihrer Daten für die OXE-Übermittlung.

Verwendung von OXE für das Pre-Training

Die praktisch wertvollste Verwendung von OXE ist die Verwendung als Datensatz vor dem Training. Laden Sie eine Teilmenge von OXE herunter, die für Ihre Aufgabendomäne und Ihren Roboter relevant ist, trainieren Sie ein allgemeines Richtlinien-Backbone und optimieren Sie dann Ihre eigenen aufgabenspezifischen Demonstrationen. Dieser Ansatz erfordert durchweg weniger aufgabenspezifische Demonstrationen als ein Training von Grund auf – oft 5–10x weniger – und erzielt gleichzeitig eine höhere Endleistung.

Eine Vorschulung auf OXE ist am vorteilhaftesten, wenn Ihre Feinabstimmungsdaten begrenzt sind (unter 100 Episoden), wenn Ihre Aufgaben konzeptionell Aufgaben in OXE ähneln und wenn Sie eine Architektur verwenden, die für die Übertragung zwischen verschiedenen Ausführungsformen konzipiert ist, wie z. B. Octo, OpenVLA oder RT-2-X. Eine reine aufgabenspezifische Feinabstimmung von Grund auf bleibt wettbewerbsfähig, wenn Sie über zahlreiche hochwertige Demonstrationen unter Einsatzbedingungen verfügen.

SVRC-Kompatibilität und wie wir helfen

Der Datenerfassungsstandard von SVRC ist von Grund auf OXE-kompatibel konzipiert: standardisierte Kameraplatzierung, konsistentes Anmerkungsschema, qualitätsgesteuerte Erfolgskennzeichnung und RLDS-fähiger Export. Über SVRCs gesammelte Daten Datendienste kann direkt für die OXE-Feinabstimmung verwendet oder zu zukünftigen Datensatzveröffentlichungen beigetragen werden. Für Teams, die vorab trainierte OXE-Modelle auf ihrer spezifischen Hardware nutzen möchten, bietet SVRC technische Unterstützung bei der Einrichtung der Feinabstimmungspipeline und der Bewertung einsatzbereiter Richtlinien.