Robot Foundation-Modelle

Vision-Language-Action-Modelle erklärt: Wie VLAs moderne Roboter antreiben

Vision-Language-Action-Modelle sind das Roboteräquivalent von GPT-4 – riesige, vortrainierte neuronale Netze, die fein abgestimmt werden können, um ein breites Spektrum physischer Aufgaben auszuführen. Zu verstehen, was VLAs sind, wie sie funktionieren und wann man sie verwendet, ist heute ein wesentliches Wissen für jeden ernsthaften Robotik-Praktiker.

Was ist ein Vision-Sprache-Aktionsmodell?

Ein Vision-Language-Action-Modell (VLA) ist ein neuronales Netzwerk, das visuelle Beobachtungen (Kamerabilder) und Anweisungen in natürlicher Sprache als Eingabe verwendet und Roboteraktionen ausgibt – Gelenkgeschwindigkeiten, Endeffektor-Posen oder Greiferbefehle. Der Teil „Vision-Sprache“ bezieht sich auf das vorab trainierte Rückgrat: Diese Modelle erben ihr visuelles und semantisches Verständnis von einem groß angelegten Internet-Vortraining für Bild-Text-Paare, ähnlich wie CLIP oder ein Vision-Language-Modell (VLM). Der „Aktions“-Teil ist der Feinabstimmungskopf, der anhand von Roboterdemonstrationsdaten trainiert wird.

Die Kernerkenntnis besteht darin, dass das Roboter-Rückgrat durch das Vortraining auf Internetdaten eine umfassende Darstellung der physischen Welt erhält – was Objekte sind, wie sie räumlich in Beziehung stehen und was Sprache bedeutet –, bevor er jemals eine Roboterdemonstration gesehen hat. Durch Feinabstimmung wird diese Darstellung dann an die Verkörperung des Roboters und die Zielaufgaben angepasst. Da das Rückgrat bereits versteht, „den blauen Becher aufzunehmen“ oder „die Schublade links zu öffnen“, kann das Modell mit weitaus weniger Demonstrationen auf neuartige Objekte und Aufgabenformulierungen verallgemeinern als eine von Grund auf neu trainierte Richtlinie.

RT-2: Das erste groß angelegte VLA

RT-2 (Robotics Transformer 2), veröffentlicht von Google DeepMind im Jahr 2023, war der erste Beweis dafür, dass die Skalierung eines Vision-Language-Modells auf die Robotersteuerung qualitativ neue Fähigkeiten hervorbrachte. RT-2 hat gleichzeitig an der Feinabstimmung eines PaLI-X Vision-Language-Modells auf Web-Daten und Roboter-Trajektorien mitgewirkt und so eine Richtlinie erstellt, die neuartigen Anweisungen folgen, Objekteigenschaften begründen und auf Objekte verallgemeinern kann, die es noch nie in Roboterdemonstrationen gesehen hatte – nur im Internet.

RT-2 zeigte, dass VLAs eine Gedankenkette anwenden können: Das Modell wurde gebeten, „etwas aufzuheben, mit dem man eine verschüttete Flüssigkeit beseitigen kann“, und identifizierte einen Schwamm am Unfallort, ohne jemals ausdrücklich dazu aufgefordert worden zu sein, Schwämme mit Reinigung in Verbindung zu bringen. Diese neu entstehende Fähigkeit – semantische Verallgemeinerung über die Trainingsverteilung hinaus – unterscheidet VLAs qualitativ von klassischen Imitations-Lernrichtlinien. Der Kompromiss liegt in der Rechenleistung: RT-2 läuft auf einem Modell mit 55 Milliarden Parametern, was eine erhebliche Infrastruktur für die Bereitstellung erfordert.

OpenVLA: Open-Source-VLA-Feinabstimmung

OpenVLA, das 2024 von Stanford- und Berkeley-Forschern veröffentlicht wurde, demokratisierte die VLA-Feinabstimmung, indem es auf dem Open-Source-Prismatic VLM (selbst basierend auf LLaMA) aufbaute und auf dem Open X-Embodiment-Datensatz trainierte – einer Sammlung von Roboterdemonstrationen aus 22 verschiedenen Ausführungsformen mit 970.000 Episoden. OpenVLA ist der Ausgangspunkt, den die meisten Forschungsteams heute verwenden, da es vollständig Open Source ist, gut dokumentiert ist und eine starke Leistung bei Standard-Manipulations-Benchmarks erzielt.

Die Feinabstimmung von OpenVLA für eine benutzerdefinierte Aufgabe erfordert nur 50–200 Demonstrationen, einen mit HuggingFace LeRobot-Konventionen formatierten Datensatz und eine einzelne 80-GB-A100- oder H100-GPU für einen mehrstündigen Trainingslauf. Die resultierende Richtlinie ist dank des vorab trainierten visuellen Rückgrats überraschenderweise in der Lage, auf Szenenvariationen und neuartige Objektpositionen zu verallgemeinern, die im Training nicht gesehen wurden. SVRCs Datenerfassungsdienst Erstellt Datensätze im LeRobot-kompatiblen Format, die sofort für die OpenVLA-Feinabstimmung bereit sind.

pi0: Generalistische Politik der physischen Intelligenz

pi0 von Physical Intelligence (pi.ai) stellt die kommerzielle Grenze der VLA-Entwicklung dar. Im Gegensatz zu OpenVLA, das ein Sprachmodell-Backbone erbt, verwendet pi0 einen Flow-Matching-Action-Head, der kontinuierliche, reibungslose Action-Trajektorien erzeugt – besser geeignet für geschickte Aufgaben als diskrete tokenisierte Aktionen. pi0 wurde anhand eines proprietären Datensatzes von über 10.000 Stunden Roboterdemonstrationen für Dutzende Aufgaben und Hardwareplattformen trainiert.

Was pi0 architektonisch auszeichnet, ist die Trennung zwischen dem „langsamen“ sprachbedingten Denkweg und dem „schnellen“ reaktiven motorischen Kontrollweg. Dies spiegelt Erkenntnisse der Kognitionswissenschaft über duale Prozesssteuerungssysteme wider. Der langsame Pfad verarbeitet die Aufgabenanweisung und die aktuelle Szene, um einen übergeordneten Plan zu erstellen; Der schnelle Weg generiert motorische Befehle mit geringer Latenz. Das Ergebnis ist eine Richtlinie, die sowohl langfristige Überlegungen als auch hochfrequente reaktive Kontrolle bewältigen kann – und so Aufgaben wie das Falten von Wäsche ermöglicht, bei denen beides gleichzeitig erforderlich ist.

Der Zugriff auf pi0 für den kommerziellen Einsatz ist über das Unternehmensprogramm von Physical Intelligence möglich. Für Teams, die Architekturen im Pi0-Stil erkunden, SVRCs Maßstäbe Dazu gehören Bewertungen von Flow-Matching-Richtlinien für Standardmanipulationssuiten, die Ihnen einen Anhaltspunkt für die erwartete Leistung geben, bevor Sie sich zu einem Trainingslauf verpflichten.

Wie sich VLAs von klassischen Imitation-Learning-Richtlinien unterscheiden

Klassische IL-Richtlinien – ACT, Diffusion Policy, BC-Z – lernen vollständig aus Roboterdemonstrationsdaten. Ihre visuellen Darstellungen werden von Grund auf oder von einem engen, vorab trainierten Encoder (wie R3M oder MVP) gelernt. Sie verallgemeinern gut innerhalb ihrer Trainingsverteilung, haben aber Schwierigkeiten mit neuen Objekten, Lichtänderungen oder Aufgabenanweisungen, die das Ziel umformulieren. Sie erfordern außerdem mehr Demonstrationen, um ein bestimmtes Leistungsniveau zu erreichen, da ihnen die semantische Vorab-Semantik fehlt, die das Vortraining bietet.

VLAs tauschen Rechenleistung gegen Generalisierung ein. Eine klassische ACT-Richtlinie auf einer GPU kostet ein paar Cent pro Inferenz; Ein VLA-Inferenzschritt auf einem 7B-Parameter-Modell kostet Größenordnungen mehr. Bei Aufgaben, die eine breite Verallgemeinerung über Umgebungen und Anweisungen hinweg erfordern, sind VLAs die Gewinner. Bei einer eng definierten, sich wiederholenden industriellen Aufgabe, bei der Sie mehr als 1.000 Demonstrationen haben und die Umgebung optimieren können, erzielen Sie mit einer klassischen Richtlinie oft eine bessere Geschwindigkeit und Zuverlässigkeit bei geringeren Kosten. Der praktische Entscheidungsrahmen: Wenn Ihre Aufgabe eine Verallgemeinerung erfordert, beginnen Sie mit einem VLA-Grundgerüst. Wenn es eng ist und einen hohen Durchsatz aufweist, optimieren Sie eine klassische Richtlinie.

Feinabstimmung von VLAs mit SVRC-Daten

SVRC bietet End-to-End-Unterstützung für VLA-Feinabstimmungsprojekte. Unser Teleoperationsinfrastruktur Erfasst Demonstrationen im RLDS/LeRobot-Format mit synchronisiertem Multikamera-Video, propriozeptivem Zustand und Aktionsbezeichnungen bei 50 Hz. Unsere Datensatz-Pipelines umfassen Episodenqualitätsfilterung (Entfernen von Fehlversuchen und Verzögerungen), Metadaten zur Kamerakalibrierung und Anmerkungen zu Aufgabenanweisungen.

Für Teams, die kundenspezifische Daten in großem Maßstab benötigen, kann unser verwalteter Erfassungsservice am Standort Palo Alto Hunderte von Demonstrationen pro Tag mit geschulten Bedienern in einer Bibliothek von Manipulationsaufgaben durchführen. Wir bieten auch Beratung zum Aufgabendesign an – Definition des Umfangs, der Variationsachsen und Erfolgskriterien für einen Datensatz, der tatsächlich eine verallgemeinerbare Richtlinie trainiert. Kontaktieren Sie unser Team um Ihr VLA-Feinabstimmungsprojekt zu besprechen oder unseren vorhandenen Datensatzkatalog durchzustöbern SVRC-Plattform.