Roboterplattformen

ALOHA-Roboter: Was es ist, wie es funktioniert und wie man anfängt

ALOHA ist die bimanuelle Teleoperationsplattform der Stanford University, die zum ersten Mal demonstrierte, dass ein Roboter geschickte zweihändige Manipulationsaufgaben – wie das Öffnen einer Tüte Chips, das Zubinden eines Kabels oder das Kochen – anhand einer kleinen Anzahl menschlicher Demonstrationen erlernen kann. Es ist heute die am häufigsten referenzierte bimanuelle Forschungsplattform der Welt. In diesem Leitfaden wird erklärt, was ALOHA ist, wie es funktioniert und wie man mit der Anwendung beginnt.

Die Stanford-Ursprungsgeschichte

ALOHA – ein kostengünstiges Open-Source-Hardwaresystem für bimanuelle Teleoperation – wurde im Mobile Manipulation Lab von Stanford entwickelt und in der Arbeit „Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware“ von Tony Z. Zhao et al. veröffentlicht. im Jahr 2023. Die zentrale These war provokativ: Man braucht keine teure, proprietäre Roboterhardware, um beeindruckende geschickte Manipulationen durchzuführen. ALOHA nutzte vier ViperX 300- und WidowX 250-Roboterarme (zwei pro Seite, einer als Anführer für die Teleoperation und einer als Nachläufer), die insgesamt weniger als 20.000 US-Dollar kosteten, kombiniert mit dem ACT-Algorithmus, um Aufgaben auszuführen, für die zuvor maßgeschneiderte Systeme erforderlich waren, die um ein Vielfaches teurer waren.

In der Arbeit wurden zehn bimanuelle Aufgaben demonstriert, darunter das Auspacken eines Bonbons, das Einsetzen einer Batterie in einen Schlitz und das Einfädeln eines Seils durch ein Loch – alle mit Erfolgsquoten von über 80 % bei 50 Demonstrationen. Diese Ergebnisse schockierten die Robotik-Community nicht, weil die Aufgaben neu waren, sondern wegen der Kosten und der Dateneffizienz. ALOHA und ACT haben gemeinsam einen neuen Maßstab für die zugängliche Forschung zu geschickter Manipulation gesetzt und eine Welle von Folgearbeiten ausgelöst, die bis heute andauern.

Das ALOHA-Hardwaredesign und die gesamte Software sind vollständig Open Source. Die Stückliste, die Montageanleitung und der ACT-Schulungscode sind auf GitHub öffentlich verfügbar. Diese Offenheit hat ALOHA zur de facto standardmäßigen bimanuellen Forschungsplattform gemacht, wobei Dutzende von Forschungsgruppen weltweit Varianten des ursprünglichen Designs betreiben. SVRC unterstützt Plattformen der ALOHA-Klasse über unsere Datendienste Und Hardware-Leasingprogramm.

Hardware-Architektur: Bimanuelles Leader-Follower-Setup

Das ALOHA-System besteht aus zwei kinematischen Paaren, eines für jeden Arm. Jedes Paar verfügt über einen „Führer“-Arm – einen leichten, nach hinten fahrbaren Arm, den der Bediener mit den Händen hält und bewegt – und einen „Folge“-Arm, der die Gelenkpositionen des Anführers in Echtzeit widerspiegelt. Der Folgearm trägt den eigentlichen Manipulator (Greifer, Werkzeug oder Endeffektor) und interagiert mit der physischen Welt. Für den Führungsarm sind keine Endeffektor-Nutzlastanforderungen erforderlich, da er lediglich rückwärts antreibbar sein und dem Bediener eine Drehmomentrückmeldung geben muss.

Die bimanuelle Konfiguration – zwei vollständige Führungs- und Folgepaare – macht ALOHA einzigartig für geschickte Aufgaben. Menschliche Hände sind von Natur aus bimanuell: Eine Hand hält das Objekt, während die andere es manipuliert, oder beide Hände arbeiten zusammen, um eine Aufgabe zu erledigen, die zwei gleichzeitige Kontaktpunkte erfordert. Einarmige Roboter können diese Aufgaben nur mit komplexen Vorrichtungen oder Abläufen bewältigen; bimanuelle Roboter können sie direkt handhaben. Der ALOHA-Formfaktor, bei dem beide Arme auf einer gemeinsamen Tischhalterung montiert sind, ist für Tischmanipulationsaufgaben optimiert, bei denen der Bediener vor dem System sitzt.

Das Kamera-Setup im ursprünglichen ALOHA-Artikel verwendete drei Kameras: eine über dem Kopf (Blick aus der Vogelperspektive auf den gesamten Arbeitsbereich), eine am linken Handgelenk und eine am rechten Handgelenk. Alle drei Kameras werden als visuelle Beobachtungen für die ACT-Richtlinie verwendet. Dieses Multi-View-Setup ist von entscheidender Bedeutung: Die Handgelenkkameras liefern Nahaufnahmen von Greif- und Kontaktereignissen, während die Overhead-Kamera einen globalen Kontext für die beidhändige Koordination liefert. ALOHA-Varianten mit einer Kamera zeigen eine messbar geringere Richtlinienleistung bei koordinationsintensiven Aufgaben.

ACT: Der Algorithmus hinter ALOHA

ACT (Action Chunking with Transformers) wurde zusammen mit ALOHA entwickelt und ist der primäre Lernalgorithmus für die Plattform. ACT ist eine transformatorbasierte Imitations-Lernstrategie, die einen Teil zukünftiger Gelenkpositionen vorhersagt – typischerweise 100 Zeitschritte bei 50 Hz, die 2 Sekunden Bewegung abdecken – und nicht eine einzelne nächste Aktion. Diese Aktions-Chunking-Architektur reduziert das sich verschärfende Fehlerproblem des naiven Verhaltensklonens erheblich, bei dem sich kleine Vorhersagefehler bei jedem Zeitschritt im Verlauf einer Aufgabe zu großen Flugbahnabweichungen anhäufen.

Die ACT-Richtlinienarchitektur verwendet während des Trainings einen CVAE-Encoder (Conditional Variational Autoencoder), um den latenten Stil jeder Demonstration zu erfassen – im Wesentlichen eine komprimierte Darstellung davon, „wie“ der Mensch die Aufgabe erledigt hat, unterschieden von „was“ das Ergebnis der Aufgabe war. Dies ermöglicht es der Richtlinie, die natürliche Variation menschlicher Demonstrationen ohne Mode-Averaging-Artefakte zu modellieren. Zur Inferenzzeit läuft nur der CVAE-Decoder, abhängig von der aktuellen Beobachtung und einem abgetasteten latenten Vektor, um den Aktionsblock zu generieren.

Das Training von ACT anhand eines ALOHA-Datensatzes mit 50 Demonstrationen pro Aufgabe dauert 2–4 Stunden auf einer einzelnen RTX 3090-GPU. Der mit dem Originalpapier veröffentlichte Trainingscode lässt sich problemlos mit dokumentierten Hyperparametern für Standard-ALOHA-Aufgaben ausführen. Bei benutzerdefinierten Aufgaben ist die Blockgröße (kl_weight in der Konfiguration) der wirkungsvollste zu optimierende Hyperparameter. Größere Blöcke verbessern die zeitliche Konsistenz auf Kosten der Reaktionsfähigkeit auf unerwartete Störungen. SVRCs Plattform Enthält vorkonfigurierte ACT-Trainingspipelines für Datensätze im ALOHA-Format.

Mobile ALOHA: ALOHA vom Tisch nehmen

Mobile ALOHA, veröffentlicht von derselben Stanford-Gruppe im Jahr 2024, erweiterte das ALOHA-Konzept auf eine mobile Basis. Der bimanuelle Armaufbau wurde auf einer mobilen AgileX Tracer-Basis montiert und ermöglichte es dem System, zu verschiedenen Orten innerhalb eines Raums zu navigieren – sich einer Küchentheke zu nähern, sich zu einem Esstisch zu bewegen, durch einen Flur zu navigieren – und dabei die ALOHA-Arme zur Manipulation beizubehalten. Mobile ALOHA demonstrierte Aufgaben wie das Garen von Garnelen auf einem Herd, das Beladen einer Spülmaschine und das Ausliefern eines Pakets – Aufgaben, die sowohl Fortbewegung als auch geschickte Handhabung erfordern.

Mobile ALOHA führte das Konzept der Ganzkörper-Teleoperation ein: Der Bediener steuert sowohl die mobile Basis als auch die beiden Arme gleichzeitig, entweder über separate Steuerschnittstellen oder über eine einheitliche Schnittstelle, die die Körperbewegungen des Bedieners auf die Ganzkörperkonfiguration des Roboters abbildet. Die Datenerfassung für mobiles ALOHA ist deutlich komplexer als für Tabletop-ALOHA, da die Richtlinie lernen muss, Navigation und Manipulation zu koordinieren, was Demonstrationen erfordert, die räumliche Variationen in der Umgebung sowie Objektvariationen abdecken.

Mobile ALOHA führte außerdem Co-Training ein: Gemeinsame Schulung der Mobile ALOHA-Richtlinie an mobilen Manipulationsdemonstrationen und statischen ALOHA-Manipulationsdemonstrationen. Das Co-Training verbesserte die Manipulationsleistung auf der mobilen Plattform, was darauf hindeutet, dass das bimanuelle Manipulationswissen aus Tischdaten sinnvoll auf den mobilen Kontext übertragen werden kann. SVRC bietet mit Mobile ALOHA kompatible Datensätze und kann in unserer Anlage in Palo Alto mobile Manipulationsdemonstrationen sammeln. Kontaktieren Sie uns um Ihre mobilen ALOHA-Datenanforderungen zu besprechen.

Unterschiede zwischen ALOHA, ALOHA 2 und kommerziellen Derivaten

ALOHA 2, das Ende 2024 veröffentlicht wurde, verbesserte das Original in mehreren Dimensionen: höherwertige Arme mit besserer Wiederholgenauigkeit, ein verbessertes Kameramontagesystem und ein überarbeitetes Handgelenkdesign, das die Komplexität der Kabelführung reduziert. Das elektrische System wurde außerdem so aktualisiert, dass anstelle von in Reihe geschalteten Stromkabeln eine dedizierte Stromverteilungsplatine verwendet wird, was die Zuverlässigkeit bei langen Datenerfassungssitzungen verbessert. ALOHA 2 behält die vollständige Softwarekompatibilität mit dem Original bei – Datensätze, die auf einem Gerät gesammelt werden, können auf dem anderen Gerät ausgewertete Richtlinien trainieren, vorbehaltlich der üblichen Einschränkungen hinsichtlich Hardwarevariationen.

Mehrere kommerzielle Anbieter verkaufen mittlerweile ALOHA-kompatible Plattformen – vormontierte, getestete Systeme, die der mechanischen und Software-Spezifikation von ALOHA entsprechen, ohne dass der Hersteller Komponenten beschaffen und die Arme selbst zusammenbauen muss. Diese kommerziellen ALOHA-Systeme kosten mehr als die DIY-Stückliste, reduzieren jedoch die Einrichtungszeit und das Risiko von Montagefehlern erheblich. Der Hardwarekatalog von SVRC umfasst ALOHA-kompatible Konfigurationen; siehe die speichern für aktuelle Optionen und Preise.

Erste Schritte mit ALOHA über SVRC

SVRC unterstützt ALOHA-basierte Forschung in jeder Phase. Für Teams, die gerade erst anfangen, bieten wir über unser ALOHA-Plattform-Leasing an Roboter-Leasingprogramm — Greifen Sie gegen eine feste monatliche Gebühr auf ein vollständiges bimanuelles Setup zu, ohne die Kapitalbindung für den Kauf von Hardware. Geleaste Systeme kommen vorkalibriert an und sind am ersten Tag für die Vorführung bereit.

Für die Datenerhebung nutzen wir unsere verwalteter Dienst stellt geschulten ALOHA-Betreibern, die in unserer Anlage in Palo Alto Demonstrationen sammeln können, Datensätze zur Verfügung, die im RLDS/LeRobot-Format bereitgestellt werden, das mit ACT-, Diffusion Policy- und OpenVLA-Schulungspipelines kompatibel ist. Unsere Bediener haben Erfahrung mit bimanuellen Koordinationsaufgaben und befolgen strukturierte Qualitätsprotokolle, die sauberere Datensätze erzeugen, als dies bei Erstforschern normalerweise der Fall ist. Wenn Ihre Aufgabe dies erfordert, können wir Ihren Standort auch für Vor-Ort-Datenerfassungskampagnen besuchen.

Für die politische Schulung und Bewertung ist die SVRC-Plattform bietet vorkonfigurierte ACT-Schulungspipelines, Experimentverfolgung und Bewertungstools für ALOHA-Richtlinien. Unser Maßstäbe umfassen ALOHA-spezifische Aufgabenbewertungen, mit denen Sie die Leistung Ihrer Richtlinien mit Referenzimplementierungen vergleichen können. Ganz gleich, ob Sie ein bimanuelles Manipulationsforschungsprogramm von Grund auf aufbauen oder versuchen, die Leistung eines bestehenden Systems zu steigern, Das SVRC-Team kann Ihnen dabei helfen, den richtigen Ansatz zu planen.