Robotik-Glossar

Über 60 Begriffe zu Nachahmungslernen, VLA-Modellen, Teleoperation, Kinematik und verkörperter KI – geschrieben für Forscher, Ingenieure und Unternehmensteams.

65 Bedingungen A–Z organisiert Aktualisiert 2026

A

ACT (Action Chunking mit Transformers)

ACT ist ein Nachahmungslernalgorithmus, der von Tony Zhao et al. eingeführt wurde. (2023), das eine transformatorbasierte Richtlinie trainiert, um einen Teil zukünftiger Aktionen mit fester Länge vorherzusagen, anstatt eine einzelne Aktion in jedem Zeitschritt. Durch die Vorhersage von Aktionssequenzen in einem Schuss reduziert ACT den für das schrittweise Verhaltensklonen typischen Verbindungsfehler und erzeugt zeitlich konsistente Bewegungen. Die Architektur kodiert RGB-Beobachtungen und den propriozeptiven Zustand über einen CVAE-Encoder und dekodiert Aktionsblöcke mithilfe eines Transformators. ACT wurde am demonstriert ALOHA bimanuelle Plattform, die bei Aufgaben wie dem Öffnen eines Beutels und dem Übertragen von Eiern eine starke Leistung erzielt. Siehe auch: Action Chunking (tiefer Einblick).

PolitischTransformatorNachahmungslernen

Aktionsraum

Der Aktionsbereich ist der vollständige Satz von Ausgaben, die eine Roboterrichtlinie in jedem Zeitschritt erzeugen kann. Für einen Roboterarm umfasst es typischerweise Gelenkpositionen, Gelenkgeschwindigkeiten oder Endeffektorstellungen (kartesische Position + Quaternion); Bei einem mobilen Roboter sind es beispielsweise Radgeschwindigkeiten oder Lenkbefehle. Aktionsräume werden entweder als diskret (ein endliches Aktionsmenü) oder kontinuierlich (realwertige Vektoren) beschrieben. Die Dimensionalität und Darstellung des Aktionsraums hat großen Einfluss darauf, wie einfach es ist, eine stabile Strategie zu trainieren: Endeffektor-Delta-Posen-Räume lassen sich oft leichter nachahmen, während Gelenk-Drehmoment-Räume eine feinere Kraftkontrolle ermöglichen, aber eine sorgfältigere Normalisierung erfordern.

PolitischKontrolle

ALOHA (Ein kostengünstiges Open-Source-Hardwaresystem für die bimanuelle Teleoperation)

ALOHA ist ein in Stanford entwickeltes bimanuelles Open-Source-Teleoperationssystem, das aus zwei ViperX 300-Roboterarmen und zwei WidowX 250-Führungsarmen besteht, die auf einem gemeinsamen Rahmen mit integrierter Handgelenkkamera montiert sind. Es wurde entwickelt, um qualitativ hochwertige Demonstrationsdaten zu geringen Kosten zu sammeln – der Originalaufbau kostete weniger als 20.000 US-Dollar – und untermauert dies ACT politische Experimente. Das mobile ALOHA erweitert die Plattform um eine fahrbare Basis und ermöglicht so Ganzkörper-Lokmanipulationsaufgaben wie Kochen und Putzen. ALOHA-Datensätze sind öffentlich verfügbar und haben sich zu einem De-facto-Benchmark für die bimanuelle Manipulationsforschung entwickelt. Erfahren Sie mehr unter SVRC-Datendienste.

HardwareTeleoperationBimanuell

AMR (Autonomer mobiler Roboter)

Ein autonomer mobiler Roboter navigiert ohne feste Spuren oder menschliche Führung durch seine Umgebung und nutzt dabei integrierte Sensoren (LiDAR, Kameras, IMU) in Kombination mit SLAM-, Pfadplanungs- und Hindernisvermeidungsalgorithmen. Im Gegensatz zu AGVs (Automated Guided Vehicles), die Magnetstreifen folgen, erstellen und aktualisieren AMRs eine Karte in Echtzeit und leiten die Route dynamisch um Personen und Objekte herum. Moderne Lager-AMRs von Unternehmen wie Boston Dynamics, Locus Robotics und 6 River Systems haben zu einer breiten Akzeptanz in der Logistik geführt. AMRs werden häufig mit Manipulatorarmen kombiniert, um sie zu erstellen mobile Manipulatoren geeignet für Pick-and-Place im großen Maßstab.

Mobile RobotikNavigationSLAM

B

Verhaltensklonen (BC)

Verhaltensklonen ist die einfachste Form Nachahmungslernen: ein überwachtes Regressionsproblem, bei dem die Richtlinie darauf trainiert wird, Expertendemonstrationen nachzuahmen, indem der Vorhersagefehler zwischen der Ausgabe der Richtlinie und der Aktion des Experten in jedem beobachteten Zustand minimiert wird. BC ist einfach zu implementieren und lässt sich gut mit Daten skalieren, weist jedoch Probleme auf Verteilungsverschiebung – Da er niemals korrigierendes Feedback erhält, führen kleine Fehler dazu, dass der Roboter Zustände besucht, die in den Trainingsdaten nicht vorhanden sind, was zu einem Aufgabenfehler führen kann. Techniken wie DAgger (Dataset Aggregation) und GAIL wurden speziell entwickelt, um das Problem der zusammengesetzten Fehler in BC anzugehen.

NachahmungslernenÜberwachtes Lernen

Bimanuelle Manipulation

Unter bimanueller Manipulation versteht man Aufgaben, bei denen zwei Roboterarme koordiniert arbeiten müssen, ähnlich wie Menschen beide Hände gleichzeitig verwenden. Beispiele hierfür sind das Falten von Wäsche, das Binden von Knoten, das Öffnen von Gläsern und das Zusammensetzen von Teilen, die mit einer Hand stabilisiert werden müssen, während die andere Feinarbeiten ausführt. Bimanuelle Aufgaben sind wesentlich schwieriger als einarmige Aufgaben, da die Richtlinie zwei hochdimensionale Aktionsströme koordinieren und dabei die physischen Einschränkungen zwischen den Armen berücksichtigen muss. Der ALOHA Die Plattform wurde speziell für das Sammeln von bimanuellen Demonstrationen entwickelt ACT gehört zu den führenden Richtlinien für die bimanuelle Steuerung.

ManipulationHardware

BOM (Stückliste)

Bei Robotik-Hardware listet die Stückliste alle Komponenten, Unterbaugruppen, Teilenummern, Mengen und Stückkosten auf, die zum Aufbau eines Systems erforderlich sind. Genaue Stücklisten sind für die Produktionsskalierung, Beschaffung, das Risikomanagement der Lieferkette und die Kostenmodellierung von entscheidender Bedeutung. Bei Open-Source-Roboterplattformen wie OpenArm oder ALOHA ermöglicht eine veröffentlichte Stückliste externen Teams die Reproduktion der Hardware ohne proprietäre Abhängigkeiten. Unternehmensteams, die den Einsatz von Robotern bewerten, fordern häufig eine Stückliste an, um die Gesamtbetriebskosten mit Leasing- oder Robot-as-a-Service-Alternativen zu vergleichen – vergleichen Sie Die SVRC-Leasingoption.

HardwareHerstellung

C

Kartesischer Raum (Aufgabenbereich)

Der kartesische Raum (auch Aufgabenraum oder Betriebsraum genannt) beschreibt die Konfiguration eines Roboters im Hinblick auf die Position und Ausrichtung seines Endeffektors relativ zu einer Welt oder einem Grundrahmen, typischerweise ausgedrückt als (x, y, z, Rollen, Nicken, Gieren) oder (x, y, z, Quaternion). Die Steuerung eines Roboters im kartesischen Raum ist für das Nachahmungslernen oft intuitiver, da menschliche Demonstrationen auf natürliche Weise den Flugbahnen des Endeffektors entsprechen. Die Transformation von Gelenkraum wird als kartesischer Raum bezeichnet Vorwärtskinematik; das Gegenteil ist Inverse Kinematik.

KinematischKontrolle

Co-Training

Unter Co-Training in der Robotik versteht man das gleichzeitige Trainieren einer einzelnen Richtlinie anhand von Daten aus mehreren Roboterausführungen, Aufgaben oder Umgebungen. Die Hypothese ist, dass unterschiedliche Datenquellen der Politik robuste visuelle und verhaltensbezogene Darstellungen vermitteln, die sich besser auf neue Umgebungen übertragen lassen. Der Öffnen Sie die X-Verkörperung Der Datensatz wurde speziell zusammengestellt, um ein gemeinsames Training für mehr als 22 Robotertypen zu ermöglichen. Große Basismodelle wie RT-2 und OpenVLA basieren auf Co-Training mit Vision-Language-Daten im Internetmaßstab und Roboterdemonstrationsdaten, um die Generalisierung voranzutreiben.

AusbildungVerallgemeinerungStiftungsmodell

Kontaktreiche Manipulation

Bei kontaktreichen Manipulationsaufgaben handelt es sich um Aufgaben, bei denen ein zielgerichteter, dauerhafter Kontakt zwischen dem Roboter und der Umgebung für den Erfolg der Aufgabe von entscheidender Bedeutung ist – etwa das Einsetzen von Stiften in Löcher, das Schrauben von Bolzen, das Falten von Stoff oder das Kneten von Teig. Diese Aufgaben stellen eine Herausforderung dar, da kleine Positionsfehler große Kraftspitzen erzeugen und schwergängige Positionsregler Teile beschädigen oder den Roboter destabilisieren können. Erfolgreiche Ansätze kombinieren konforme Steuerung (Impedanz- oder Admittanzsteuerung), Kraft-Momenten-Erkennungund erlernte Richtlinien, die Kontakte antizipieren und ausnutzen.

ManipulationKontrolleKrafterkennung

Kontinuierliche Kontrolle

Kontinuierliche Kontrolle bezieht sich auf Roboterrichtlinien, die realwertige Aktionsvektoren (z. B. Gelenkdrehmomente, Geschwindigkeiten oder kartesische Deltas) ausgeben, anstatt aus einem diskreten Satz von Aktionen auszuwählen. Die meisten physischen Robotermanipulationsaufgaben erfordern eine kontinuierliche Steuerung, da eine reibungslose, präzise Bewegung durch ein endliches Aktionsmenü nicht angemessen dargestellt werden kann. Zu den Standard-Deep-RL-Algorithmen für die kontinuierliche Steuerung gehören DDPG, TD3 und SAC; für Nachahmungslernen, Verhaltensklonen und Verbreitungspolitik werden häufig in kontinuierlichen Aktionsräumen verwendet.

KontrolleVerstärkungslernen

D

Datenerweiterung (für Robotik)

Die Datenerweiterung beim Roboterlernen wendet zufällige Transformationen auf Trainingsbeobachtungen an, um die Robustheit der Richtlinien zu verbessern, ohne zusätzliche Demonstrationen zu sammeln. Zu den gängigen Bildvergrößerungen gehören zufälliges Zuschneiden, Farbzittern, Gaußsche Unschärfe und Ausschnitte. Anspruchsvollere Erweiterungen überlagern ablenkende Hintergründe, ändern die Lichtverhältnisse oder fügen Sensorrauschen ein, um eine Überanpassung an bestimmte visuelle Merkmale in der Trainingsumgebung zu verhindern. Einige Ansätze verstärken auch Maßnahmen – zum Beispiel durch das Hinzufügen von Rauschen zu gemeinsamen Trajektorien, um der Politik beizubringen, sich von Störungen zu erholen. Die Erweiterung ist besonders wichtig, wenn Trainingsdaten teuer sind (jede Demonstration erfordert Zeit durch einen menschlichen Bediener).

AusbildungRobustheitDaten

Freiheitsgrade (DOF)

Freiheitsgrade beschreiben die Anzahl unabhängiger Parameter, die zur Spezifikation der Konfiguration eines mechanischen Systems erforderlich sind. Ein Roboterarm mit sechs Drehgelenken hat 6 Freiheitsgrade – genug, um seinen Endeffektor beliebig innerhalb seines erreichbaren Arbeitsbereichs zu positionieren und auszurichten (mit Ausnahme von Singularitäten). Ein 7-DOF-Arm fügt ein redundantes Gelenk hinzu, das eine Nullraumoptimierung zur Vermeidung von Hindernissen oder für bequeme Posen ermöglicht. Menschliche Arme haben an der Schulter-Ellenbogen-Handgelenk-Kette etwa 7 Freiheitsgrade, sodass Roboter mit 7 Freiheitspunkten die natürliche Wahl für anthropomorphe Manipulationen sind. Mobile Basen fügen 2–3 DOF hinzu; Vollständige Humanoide überschreiten 30 DOF.

KinematischHardware

Demonstration

Eine Demonstration (in Kontexten des Nachahmungslernens auch als Flugbahn oder Episode bezeichnet) ist eine aufgezeichnete Abfolge von Beobachtungen und Aktionen, die von einem Menschen oder erfahrenen Controller bereitgestellt werden und veranschaulicht, wie eine Aufgabe ausgeführt wird. Demonstrationen sind die primäre Datenquelle für Verhaltensklonen und andere Nachahmungslernalgorithmen. Sie können über abgeholt werden Teleoperation, kinästhetischer Unterrichtoder Motion Capture. Die Datenqualität – reibungslose Bewegung, konsistente Aufgabenausführung, angemessene Abdeckung des Zustandsraums der Aufgabe – ist für die nachgelagerte Richtlinienleistung ebenso wichtig wie die Quantität. SVRC sammelt über unsere Robotervorführungen in Produktionsqualität Datendienste.

DatenNachahmungslernen

Verbreitungspolitik

Diffusion Policy, eingeführt von Chi et al. (2023) formuliert die Generierung von Roboteraktionen als einen rauschunterdrückenden Diffusionsprozess – dieselbe Klasse generativer Modelle, die auch bei der Bildgenerierung verwendet werden. Zur Inferenzzeit verfeinert die Richtlinie mithilfe eines erlernten Bewertungsnetzwerks (normalerweise ein CNN oder Transformator) iterativ eine Stichprobe von Gaußschem Rauschen in eine Folge von Aktionen, die von der aktuellen Beobachtung abhängig sind. Im Vergleich zum deterministischen Verhaltensklonen stellt die Diffusionspolitik natürlich dar multimodal Aktionsverteilungen (mehrere gültige Möglichkeiten zur Ausführung einer Aufgabe) und erzielt hochmoderne Ergebnisse bei kontaktreichen Manipulations-Benchmarks. Siehe die ausführlicher Artikel.

PolitischGeneratives ModellNachahmungslernen

Geschickte Manipulation

Geschickte Manipulation bezieht sich auf feine, mehrfingerige Manipulationsaufgaben, die die gesamten kinematischen und sensorischen Fähigkeiten einer Roboterhand ausnutzen – Neugreifen in der Hand, Rollen von Gegenständen über die Fingerspitzen, Kartenausteilen, chirurgisches Nähen und ähnliche Aufgaben. Geschicklichkeit erfordert hoheDOF Endeffektoren (5+ Finger mit jeweils 3+ Gelenken), dichte Tastwahrnehmung und Richtlinien, die in der Lage sind, über komplexe Kontaktgeometrien nachzudenken. Durch Simulation trainiertes Verstärkungslernen (z. B. Dactyl von OpenAI) und neuere, auf Diffusion basierende Richtlinien haben neue Maßstäbe gesetzt, doch die geschickte Manipulation der Zuverlässigkeit auf menschlicher Ebene bleibt ein offenes Forschungsproblem.

ManipulationHardwareForschungsgrenze

E

Verkörperte KI

Unter verkörperter KI versteht man künstliche Intelligenzsysteme, die über einen in der realen Welt befindlichen physischen Körper wahrnehmen und handeln, anstatt nur isoliert auf Text oder Bildern zu reagieren. Die Verkörperungshypothese besagt, dass wahre Intelligenz sensomotorische Grundlagen erfordert – Lernen durch Interaktion und nicht nur durch Mustervergleich anhand statischer Datensätze. In der Praxis umfasst die verkörperte KI-Forschung das Lernen von Robotern, VLA-Modelle, Sim-to-Real-Transfer und physikalische Fundamentmodelle. Unternehmen wie Google DeepMind (RT-Serie), Physical Intelligence (pi0) und NVIDIA (GR00T) sind die wichtigsten industriellen Treiber. SVRCs eigene Datenplattform ist für integrierte KI-Datenworkflows konzipiert.

StiftungsmodellPhysische KI

Endeffektor

Der Endeffektor ist das Gerät am distalen Ende eines Roboterarms, das direkt mit der Umgebung interagiert. Dabei kann es sich um einen Parallelbackengreifer, einen Saugnapf, eine Mehrfingerhand, einen Schweißbrenner, eine Farbdüse oder ein beliebiges aufgabenspezifisches Werkzeug handeln. Die Pose des Endeffektors – seine Position und Ausrichtung im Raum – ist die primäre Kontrollausgabe für die meisten Manipulationsrichtlinien. Der Tool Center Point (TCP) ist der Referenzpunkt auf dem Endeffektor, der für die kartesische Steuerung verwendet wird. Die Wahl des richtigen Endeffektors ist eine entscheidende Einsatzentscheidung: Greifer, die für eine Objektklasse (z. B. starre Kartons) optimiert sind, können bei weichen oder unregelmäßigen Gegenständen versagen. Durchsuchen Die SVRC-Hardwareoption.

HardwareManipulation

Folge

Eine Episode ist ein einzelner, vollständiger Versuch, eine Aufgabe auszuführen – vom Anfangszustand bis zum Erfolg, Misserfolg oder einer Zeitüberschreitung der Aufgabe. Beim Reinforcement Learning interagiert der Agent eine Episode lang mit der Umgebung, sammelt Belohnungen und dann wird die Umgebung zurückgesetzt. Beim Nachahmungslernen stellt jede aufgezeichnete Demonstration eine Episode dar. Episoden sind die Grundeinheit von Roboterlerndatensätzen: Ein Datensatz mit 1.000 Episoden enthält 1.000 Aufgabenversuche mit zugehörigen Beobachtungen, Aktionen und Ergebnissen. Episodenlänge, Reset-Bedingungen und Erfolgskriterien müssen genau definiert werden, um eine konsistente Datenerfassung sicherzustellen.

DatenVerstärkungslernenNachahmungslernen

Extrinsisch (Kamera)

Kameraextrinsiken definieren die Position und Ausrichtung (6-DOF-Pose) einer Kamera relativ zu einem Referenzrahmen – typischerweise der Roboterbasis oder dem Endeffektor. Zusammen mit intrinsischen Parametern (Brennweite, Hauptpunkt, Linsenverzerrung) ermöglichen extrinsische Parameter die Projektion von 3D-Weltpunkten auf die Bildebene und umgekehrt die Anhebung von 2D-Erkennungen in den 3D-Raum. Eine genaue extrinsische Kalibrierung ist für visuomotorische Richtlinien von entscheidender Bedeutung, die visuelle Beobachtungen auf Roboteraktionen in einem konsistenten Koordinatenrahmen abbilden müssen. Eye-in-Hand-Kameras (am Handgelenk montiert) müssen neu kalibriert werden, wenn der Endeffektor oder die Kamera ausgetauscht wird.

WahrnehmungKalibrierung

F

Kraft-Momenten-Sensor (FT-Sensor)

Ein Kraft-Drehmoment-Sensor misst den sechsachsigen Schraubenschlüssel (drei Kräfte Fx, Fy, Fz und drei Drehmomente Tx, Ty, Tz), der am Handgelenk oder Endeffektor eines Roboters wirkt. FT-Sensoren sind für kontaktreiche und Montageaufgaben unerlässlich, bei denen eine reine Positionskontrolle entweder Kontakte übersehen oder übermäßige Kräfte aufbringen würde. Sie ermöglichen Impedanz- und Admittanzregelkreise, erkennen Schlupf und Kollision und liefern reichhaltige sensorische Eingaben für erlernte Richtlinien. Hochpräzise FT-Sensoren von ATI und Robotiq gehören in Forschungslaboren zum Standard; Kostengünstige MEMS-basierte Sensoren eignen sich zunehmend für Produktionseinsätze.

HardwareSpürenKontrolle

Stiftungsmodell (Robotik)

Ein Basismodell ist ein großes neuronales Netzwerk, das auf breiten, vielfältigen Daten vorab trainiert wurde und durch Feinabstimmung oder Eingabeaufforderung an viele nachgelagerte Aufgaben angepasst werden kann. In der Robotik sind Basismodelle in der Regel große Vision-Language-Modelle (VLMs), die mit Aktionsausgaben zu Formularen erweitert werden VLAsoder große visuomotorische Richtlinien, die auf verkörperungsübergreifenden Datensätzen trainiert werden. Beispiele hierfür sind RT-2 (Google DeepMind), OpenVLA, Octo und pi0 (Physical Intelligence). Grundlagenmodelle für die Robotik sind attraktiv, weil sie ein Vortraining im Internetmaßstab nutzen, die Sprachkonditionierung unterstützen und aufgabenübergreifend verallgemeinern können, ohne dass jede einzelne Aufgabe von Grund auf neu trainiert werden muss. Sehen SVRC-Modellkatalog.

VLAVorschulungVerallgemeinerung

Vorwärtskinematik (FK)

Die Vorwärtskinematik berechnet die Pose des Endeffektors im kartesischen Raum unter Berücksichtigung der Gelenkwinkel des Roboters (oder Verschiebungen bei prismatischen Gelenken). Für einen seriellen Kettenroboter wird FK durch Multiplikation einer Folge homogener Transformationsmatrizen (eine pro Gelenk) berechnet, die typischerweise aus Denavit-Hartenberg-Parametern (DH) oder einer URDF-Beschreibung abgeleitet werden. FK hat immer eine eindeutige Lösung – bei gegebenen Gelenkwinkeln gibt es genau eine Endeffektorstellung – im Gegensatz zum inversen Problem (IK), die null, eine oder viele Lösungen haben kann. FK wird in der Simulation, Kollisionsprüfung, Visualisierung und Echtzeitüberwachung des Roboterzustands eingesetzt.

KinematischKontrolle

G

Verallgemeinerung (Roboterrichtlinie)

Die Generalisierung misst, wie gut eine Roboterrichtlinie bei Objekten, Szenen oder Aufgaben funktioniert, die sie während des Trainings nicht gesehen hat. Dies ist die zentrale Herausforderung des Roboterlernens: Eine Strategie, die sich Trainingsdemonstrationen merkt, aber bei neuartigen Instanzen scheitert, hat keinen praktischen Wert. Forscher unterscheiden zwischen Objektgeneralisierung (neue Instanzen bekannter Kategorien), Kategoriegeneralisierung (völlig neue Objektklassen) und Aufgabengeneralisierung (neue Anweisungsformulierungen oder Zielkonfigurationen). Eine Verbesserung der Generalisierung erfordert typischerweise größere und vielfältigere Trainingsdaten, Co-Training mit Internetdaten, Domänen-Randomisierung in der Simulation usw Gründungsmodell Priorinnen.

PolitischForschungsgrenze

Pose erfassen

Eine Greifhaltung gibt die 6-DOF-Position und Ausrichtung einer Roboterhand oder eines Greifers relativ zu einem Objekt an, sodass der Greifer das Objekt schließen und sicher halten kann. Die Schätzung der Greifhaltung erfolgt typischerweise anhand von Tiefen- oder Punktwolkendaten mithilfe analytischer Methoden (z. B. antipodaler Greifabtastung) oder erlernter Detektoren wie GraspNet-1Billion, GQ-CNN oder AnyGrasp. Eine gültige Greifhaltung muss für den Roboter erreichbar, beim Annähern kollisionsfrei und unter den erwarteten Aufgabenlasten stabil sein. Zu den Qualitätsmetriken des Griffs gehören Kraftschluss, Kontaktstabilität und aufgabenspezifischer Schraubenschlüsselwiderstand.

ManipulationWahrnehmung

Greifer

Ein Greifer ist die häufigste Roboterklasse Endeffektor, entworfen zum Greifen und Halten von Gegenständen. Am einfachsten und am weitesten verbreitet sind Parallelgreifer mit zwei gegenüberliegenden Fingern, die motorisch oder pneumatisch angetrieben werden. Sauggreifer nutzen Vakuum, um glatte, ebene Oberflächen zu greifen. Weiche Greifer verwenden nachgiebige Materialien (Silikon, Stoff), um sich an unregelmäßige Objekte anzupassen. Mehrfingerige Hände (3–5 Finger) ermöglichen geschickte Manipulation sind aber schwieriger zu kontrollieren und teurer. Die Auswahl des Greifers hängt entscheidend von der Objektgeometrie, den Oberflächeneigenschaften, der erforderlichen Nutzlast und davon ab, ob eine Neuausrichtung in der Hand erforderlich ist.

HardwareEndeffektor

H

HDF5 (Hierarchisches Datenformat v5)

HDF5 ist ein binäres Dateiformat und eine Bibliothek zum effizienten Speichern und Zugreifen auf große, strukturierte wissenschaftliche Datensätze. In der Robotik ist HDF5 der Standardcontainer für Roboterdemonstrationsdatensätze: Eine einzelne Datei speichert synchronisierte Kamerabilder, Gelenkwinkel, Greiferzustände, Kraftmesswerte und Metadaten in hierarchischen Gruppen, wobei Chunked I/O einen schnellen Direktzugriff während des Trainings ermöglicht. Die Ökosysteme LeRobot und ALOHA verwenden beide nativ HDF5. Die Alternative Zarin Das Format bietet Cloud-nativen Chunked-Speicher mit besserer Unterstützung für gleichzeitige Schreibvorgänge. SVRCs Datenerfassungspipelines Ausgabe standardmäßig in HDF5.

DatenLagerungMaschinenbau

Humanoider Roboter

Ein humanoider Roboter hat eine Körperstruktur, die weitgehend der eines Menschen ähnelt – typischerweise ein Rumpf, zwei Beine, zwei Arme und ein Kopf – und es ihm ermöglicht, in Umgebungen zu agieren, die für Menschen konzipiert sind, und menschliche Werkzeuge zu verwenden. Zu den bemerkenswerten Humanoiden zählen Boston Dynamics Atlas, Agility Robotics Digit, Figure 01 und Tesla Optimus. Humanoide stellen extreme technische Herausforderungen dar: Die zweibeinige Fortbewegung erfordert eine Echtzeit-Gleichgewichtskontrolle und die Koordination von 30+ DOF für Bewegungsmanipulationsaufgaben erfordert Ganzkörperkontrolle. Trotz dieser Komplexität ziehen Humanoide enorme Investitionen an, da ihr Formfaktor ohne Änderungen an der Infrastruktur auf verschiedene Arbeitsplätze anwendbar ist.

HardwareFortbewegungBimanuell

Mensch-Roboter-Interaktion (HRI)

Die Mensch-Roboter-Interaktion ist ein interdisziplinäres Gebiet, das untersucht, wie Menschen und Roboter effektiv und sicher kommunizieren, zusammenarbeiten und den physischen Raum teilen. Die HRI-Forschung umfasst Sicherheitsstandards (ISO/TS 15066 für kollaborative Roboter), Benutzeroberflächendesign für Teleoperation, Unterricht in natürlicher Sprache, lesbare Roboterbewegung (wodurch die Absicht des Roboters für Umstehende lesbar gemacht wird) und soziale Robotik (Verwendung von Blick, Geste und Sprache für die nonverbale Kommunikation). Bei industriellen Co-Bot-Einsätzen bestimmt HRI direkt, ob Arbeiter Roboter an ihrer Seite akzeptieren und effektiv einsetzen. Ein gutes HRI-Design reduziert Unfälle, verbessert den Durchsatz und verringert den Schulungsaufwand für den Menschen.

SicherheitZusammenarbeit

I

Nachahmungslernen (IL)

Imitation Learning ist eine Familie maschineller Lernmethoden, die Roboterrichtlinien anhand menschlicher Demonstrationen und nicht anhand technischer Belohnungsfunktionen trainieren. Die einfachste Form ist Verhaltensklonen (überwachte Regression auf Zustand-Aktions-Paaren). Fortgeschrittenere Varianten – DAgger (iterative Korrektur), GAIL (kontradiktorische Nachahmung) und IRL (Wiederherstellung einer Belohnungsfunktion) – befassen sich mit den Problemen der Verteilungsverschiebung und der Belohnungsspezifikation, die reines BC plagen. IL ist zum vorherrschenden Paradigma für die Vermittlung geschickter Manipulation geworden, da die Belohnungsgestaltung für komplexe Manipulation äußerst schwierig ist, wohingegen das Sammeln menschlicher Demonstrationen in großem Maßstab durchführbar ist Teleoperation. Siehe die Vollständiger Deep-Dive-Artikel.

KernkonzeptPolitischDaten

Inverse Kinematik (ICH)

Die inverse Kinematik ermittelt die Gelenkwinkel, die den Endeffektor eines Roboters in eine gewünschte kartesische Pose bringen. Im Gegensatz zu Vorwärtskinematik, IK kann abhängig von der kinematischen Struktur des Roboters und der Zielpose null, eine oder unendlich viele Lösungen haben. Es gibt analytische IK-Löser für standardmäßige 6-DOF-Konfigurationen; Numerische Methoden (Jacobian Pseudo-Inverse, Newton-Raphson, optimierungsbasiert) verarbeiten beliebige Geometrien und redundante Roboter. IK wird bei der Bewegungsplanung, Teleoperationskartierung (Umwandlung der Handhaltung des Bedieners in Gelenkbefehle) und allen kartesischen Raumsteuerungen verwendet. Bibliotheken wie KDL, IKFast und track-ik werden häufig in ROS-Umgebungen verwendet.

KinematischKontrollePlanung

Isaac Sim

NVIDIA Isaac Sim ist eine Robotik-Simulationsplattform, die auf dem Omniverse USD-Framework basiert und sofort einsatzbereite High-Fidelity-Physik (über PhysX 5), fotorealistisches Rendering (über RTX Path Tracing) und ROS 2-Integration bietet. Es wurde speziell für die Generierung synthetischer Trainingsdaten, das Testen von Roboterrichtlinien und die Sim-to-Real-Transferforschung entwickelt. Isaac Sim unterstützt die Domänen-Randomisierung von Texturen, Beleuchtung und Objektposen im großen Maßstab und lässt sich in das Isaac Lab-Reinforcement-Learning-Framework von NVIDIA integrieren. Seine GPU-beschleunigte Physik ermöglicht das Training von RL-Richtlinien mit Tausenden parallelen Simulationsinstanzen. Erfahren Sie mehr unter SVRC Isaac Sim-Ressourcenblatt.

SimulationSynthetische DatenWerkzeug

J

Gemeinsamer Raum (Konfigurationsraum)

Der Gelenkraum (auch Konfigurationsraum oder C-Raum genannt) ist der Raum aller möglichen Gelenkwinkelvektoren für einen Roboter. Ein Punkt im Gelenkraum gibt eindeutig die vollständige Konfiguration des Roboters an. Bewegungsplanungsalgorithmen wie RRT und PRM arbeiten im Gelenkraum, um kollisionsfreie Pfade zwischen Konfigurationen zu finden, da die Kollisionsprüfung dort einfacher ist als im kartesischen Raum. Viele RL-Richtlinien geben Gelenkpositionen oder -geschwindigkeiten direkt im Gelenkraum aus, während nachahmende Lernrichtlinien häufig darin zum Einsatz kommen Kartesischer Raum für eine einfachere Ausrichtung zwischen Mensch und Demonstrator. Siehe die Artikel zum Gelenkraum.

KinematischPlanung

Gelenkdrehmoment

Das Gelenkdrehmoment ist die Rotationskraft, die ein Motor auf ein Robotergelenk ausübt, gemessen in Newtonmetern (Nm). Drehmomentgesteuerte Roboter (im Gegensatz zu positionsgesteuerten) können Kontaktkräfte direkt regulieren und so konformes Verhalten wie Nachgeben beim Drücken und präzise Steuerung der Montagekräfte ermöglichen. Die Drehmomenterkennung an jedem Gelenk ist ein Schlüsselmerkmal kollaborativer Roboter (Cobots) wie Franka Panda, Universal Robots UR-Serie und Kuka iiwa und ermöglicht eine sichere Mensch-Roboter-Zusammenarbeit und eine ganzkörperkonforme Steuerung. Das Erlernen von Strategien, die Gelenkdrehmomente anstelle von Positionen ausgeben, erfordert ein sorgfältiges Training, um instabile Schwingungen zu vermeiden.

KontrolleHardwareGewalt

K

Kinematische Kette

Eine kinematische Kette ist eine Reihe starrer Körperglieder, die durch Gelenke verbunden sind und zusammen die mechanische Struktur eines Roboters bilden. Eine offene Kette (serieller Roboterarm) hat ein freies Ende (den Endeffektor), was FK einfach macht. Eine geschlossene Kette (Parallelroboter, Hexapod) verfügt über mehrere Schleifen, die eine höhere Steifigkeit und Geschwindigkeit bieten, aber eine komplexere Kinematik erfordern. Die kinematische Kette bestimmt den Arbeitsbereich des Roboters, Singularitäten und die für die kartesische Steuerung verwendete Jacobi-Matrix. URDF-Dateien beschreiben kinematische Ketten als einen Baum aus Gliedern und Gelenken für Simulations- und Steuerungssoftware.

KinematischMechanik

Kinästhetische Lehre

Kinästhetisches Lehren (auch Lead-by-Nose oder direkte Führung genannt) ist eine Methode der Roboterprogrammierung, bei der ein Mensch den Roboterarm physisch ergreift und ihn entlang der gewünschten Bewegungsbahn bewegt, während der Roboter die Flugbahn aufzeichnet. Der Roboter muss rückwärts antreibbar sein (geringe Gelenkreibung und Nachgiebigkeit), damit der Bediener ihn mit minimalem Kraftaufwand bewegen kann. Der kinästhetische Unterricht ist intuitiv und erfordert keine externe Hardware, ist jedoch auf Aufgaben beschränkt, die der Bediener physisch demonstrieren kann, und es werden nur propriozeptive Daten (keine Beobachtungen der Handgelenkskamera) erzeugt, es sei denn, Kameras werden mitaufgezeichnet. Der Schwerkraftkompensationsmodus bei drehmomentgesteuerten Robotern wie dem Franka Panda macht den kinästhetischen Unterricht praktisch.

DatenerfassungNachahmungslernen

L

Sprachbedingte Politik

Eine sprachkonditionierte Richtlinie verwendet neben visuellen Beobachtungen eine natürliche Sprachanweisung (z. B. „Heben Sie den roten Becher auf und stellen Sie ihn auf das Tablett“) als zusätzliche Eingabe, sodass ein einzelnes Richtliniennetzwerk mehrere zur Laufzeit ausgewählte Aufgaben ohne erneutes Training ausführen kann. Die Sprachkonditionierung wird typischerweise durch die Codierung von Anweisungen mit einem vorab trainierten Sprachmodell (CLIP, T5, PaLM) und die Fusion der resultierenden Einbettung mit Bildfunktionen implementiert. VLA-Modelle wie RT-2, OpenVLA und pi0 sind vom Design her sprachbedingt. Dieser Ansatz reduziert die Notwendigkeit, separate Richtlinien pro Aufgabe zu trainieren, und unterstützt die Zero-Shot-Generalisierung auf neuartige Befehlsformulierungen.

VLAStiftungsmodellVerallgemeinerung

Latentraum

Ein latenter Raum ist eine komprimierte, niedrigerdimensionale Darstellung von Daten, die von einem neuronalen Netzwerk gelernt wurden – die Ausgabe eines Encoders, der die aufgabenrelevantesten Merkmale einer Beobachtung erfasst. Beim Roboterlernen werden latente Räume in VAEs (variative Autoencoder) zum Erlernen strukturierter Darstellungen visueller Szenen, in Weltmodellen zur Vorhersage zukünftiger Zustände und in CVAE-basierten Richtlinien (wie ACT) zur Kodierung multimodaler Aktionsverteilungen verwendet. Ein gut strukturierter latenter Raum platziert semantisch ähnliche Beobachtungen nahe beieinander und ermöglicht so Interpolation, Planung und Datenerweiterung im latenten Bereich statt im Rohpixelraum.

RepräsentationslernenPolitisch

LeRobot

LeRobot ist die Open-Source-Bibliothek von Hugging Face für Roboterlernen und bietet standardisierte Implementierungen von Imitationslernalgorithmen (ACT, Verbreitungspolitik, TDMPC), ein einheitliches Datensatzformat, Visualisierungstools und vorab trainierte Modellgewichte. Ziel ist es, die Eintrittsbarriere für die Roboterlernforschung zu senken, indem ein einziges zusammenhängendes Framework bereitgestellt wird, analog zu dem, was Transformers für NLP getan hat. LeRobot lässt sich für die gemeinsame Nutzung von Datensätzen und Modellen in den Hugging Face Hub integrieren und unterstützt sowohl simulierte (Gymnasium-Robotik, MuJoCo) als auch physische Roboterumgebungen. Parallel dazu wurde der kostengünstige Roboterbausatz SO-100 herausgebracht.

WerkzeugOpen SourceNachahmungslernen

LeRobot HF-Datensatz

Das LeRobot-Datensatzformat ist ein standardisiertes Schema für Roboterdemonstrationsdaten, die auf dem Hugging Face Hub gehostet werden. Jeder Datensatz besteht aus Parquet-Dateien (für skalare Zeitreihen: gemeinsame Positionen, Aktionen, Belohnungen, Fertig-Flags) sowie komprimierten MP4-Videoblöcken für Kamerastreams, alle nach Episode und Bild indiziert. A meta/info.json Die Datei beschreibt Kameranamen, Robotertyp, fps und Datenstatistiken, die für die Normalisierung verwendet werden. Dieses Format ermöglicht es jedem LeRobot-kompatiblen Algorithmus, jeden veröffentlichten Datensatz mit einer einzigen Codezeile zu laden, was schnelle datensatzübergreifende Experimente ermöglicht. Dutzende Manipulations- und mobile Manipulationsdatensätze sind bereits in diesem Format veröffentlicht.

DatenStandardOpen Source

M

Manipulation

Unter Manipulation versteht man die gezielte physische Interaktion mit Objekten – das Aufnehmen, Platzieren, Zusammensetzen, Falten, Einlegen, Ausgießen und ähnliche Aufgaben. Robotermanipulation ist eines der aktivsten Forschungsgebiete in der verkörperten KI, denn selbst einfache alltägliche Aufgaben (Beladen einer Spülmaschine, Öffnen eines Pakets) erfordern eine ausgeprägte Wahrnehmung, präzise Motorsteuerung und eine robuste Griffplanung. Der Schwierigkeitsgrad der Manipulation reicht vom einfachen Pick-and-Place mit bekannten Objekten in festen Anordnungen über den kontaktreichen Zusammenbau bis hin zur völlig geschickten Neuausrichtung in der Hand mit neuartigen Objekten in unstrukturierten Szenen. SVRCs Datendienste Spezialisiert auf das Sammeln von Manipulationsdemonstrationen für Schulung und Bewertung.

KernkonzeptAufgabe

MoveIt

MoveIt ist das am weitesten verbreitete Open-Source-Bewegungsplanungs-Framework für Roboterarme, das ursprünglich bei Willow Garage entwickelt wurde und jetzt von PickNik Robotics verwaltet wird. MoveIt 2 läuft auf ROS 2 und bietet Planer (OMPL, CHOMP, PILZ), kartesische Trajektorienplanung, Kollisionsprüfung mit der Planungsszene von MoveIt, Kinematik-Plugins (KDL, IKFast, TracIK) und Greifplanungsintegration. Es handelt sich um die Standard-Middleware-Schicht zwischen einer Roboter-Lernrichtlinie (die gewünschte Posen oder Wegpunkte des Endeffektors ausgibt) und der Gelenksteuerung auf niedriger Ebene, die reibungslose, kollisionsfreie Trajektorien auf dem physischen Roboter ausführt.

WerkzeugPlanungROS

Multitasking-Lernen

Beim Multitasking-Lernen wird eine einzige Richtlinie für Demonstrationen mehrerer unterschiedlicher Aufgaben gleichzeitig trainiert, mit der Erwartung, dass gemeinsam erlernte Darstellungen über Aufgaben hinweg die Leistung bei jeder einzelnen Aufgabe verbessern und eine Verallgemeinerung auf neue Aufgaben ermöglichen. In der Robotik bedeutet dies häufig das Training von Hunderten von Aufgaben mit unterschiedlichen Objekten, Zielen und Umgebungen. Die größte Herausforderung besteht darin, die Gradientenbeiträge verschiedener Aufgaben auszugleichen (Gradienteninterferenz) und sicherzustellen, dass die Richtlinie zum Zeitpunkt der Inferenz zwischen Aufgaben unterscheiden kann – typischerweise über Sprachkonditionierung oder One-Hot-Task-Identifikatoren. Multitasking-Richtlinien sind eine Voraussetzung für universelle Roboterassistenten.

PolitischVerallgemeinerungAusbildung

N

Neuronale Politik

Eine neuronale Richtlinie ist eine durch ein neuronales Netzwerk parametrisierte Robotersteuerungsrichtlinie, die Beobachtungen (Bilder, Propriozeption, Sprache) direkt auf Aktionen (Gelenkpositionen, kartesische Deltas, Greiferbefehle) abbildet. Im Gegensatz zu klassischen Bewegungsplanungs-Pipelines lernen neuronale Richtlinien die End-to-End-Zuordnung aus Daten ohne manuell erstellte Zwischendarstellungen. Moderne neuronale Richtlinien verwenden Faltungsencoder für die Vision, Transformatoren für die Sequenzmodellierung und Architekturen wie ACT, Diffusion Policy oder VLA-Backbones für die Aktionsgenerierung. Eine wesentliche Eigenschaft neuronaler Richtlinien besteht darin, dass sie anhand von Demonstrationen oder Belohnungssignalen trainiert werden können, sodass sie Aufgaben bewältigen können, die für handcodierte Controller zu komplex sind.

PolitischTiefes Lernen

Nicht-greifbare Manipulation

Nicht-greifbare Manipulation bezieht sich auf die Manipulation von Objekten, ohne sie zu greifen – stattdessen werden Schieben, Rollen, Drehen, Umdrehen, Kippen oder andere Kontaktstrategien verwendet, die Schwerkraft und Oberflächenreibung nutzen. Schieben Sie zum Beispiel eine Kiste über einen Tisch, um sie zu positionieren, oder stellen Sie einen Stift aufrecht, bevor Sie ihn ergreifen. Nicht-greifbare Strategien können Objekte in greifbare Konfigurationen bringen, Gegenstände neu positionieren, die zu groß zum Greifen sind, oder in unübersichtlichen Szenen funktionieren, in denen ein Greifansatz nicht möglich ist. Die Planung nichtgreifbarer Aktionen erfordert die Modellierung quasistatischer oder dynamischer Objektmechanik und Kontaktphysik, was sie zu einem aktiven Forschungsthema an der Schnittstelle von Manipulation und Bewegungsplanung macht.

ManipulationPlanung

O

Beobachtungsraum

Der Beobachtungsraum definiert alle Sensoreingaben, die der Roboterrichtlinie zu jedem Zeitschritt zur Verfügung stehen. Zu den gängigen Modalitäten gehören RGB-Bilder von Handgelenk- oder Overhead-Kameras, Tiefenkarten von Strukturlicht- oder Stereosensoren, propriozeptiver Zustand (Gelenkpositionen, Geschwindigkeiten, Drehmomente), Greiferzustand, Endeffektorhaltung, taktile Messwerte und aufgabenspezifische Eingaben wie Spracheinbettungen oder Zielbilder. Das Design des Beobachtungsraums wirkt sich tiefgreifend auf die Leistung und Verallgemeinerung von Richtlinien aus: Umfangreichere Beobachtungen enthalten mehr Informationen, erhöhen jedoch die Modellkomplexität, die Trainingszeit und das Risiko einer Überanpassung an irrelevante visuelle Merkmale.

WahrnehmungPolitisch

Steuerung im offenen Regelkreis

Die Steuerung mit offenem Regelkreis führt eine vorab geplante Flugbahn aus, ohne während der Ausführung Sensorrückmeldungen zu verwenden – der Roboter folgt einfach den befohlenen Positionen oder Geschwindigkeiten, unabhängig davon, was tatsächlich passiert. Dies eignet sich für hochwiederholbare Aufgaben in kontrollierten Umgebungen, wie z. B. CNC-Bearbeitung oder Pick-and-Place auf einem festen Förderband. Die Steuerung ist schnell und einfach, scheitert jedoch bei Störungen, da keine Korrekturmaßnahmen ergriffen werden. Im Gegensatz dazu vergleicht die Regelung mit geschlossenem Regelkreis (Feedback) kontinuierlich den Ist-Zustand mit dem Soll-Zustand und wendet Korrekturbefehle an, was sie für das Lernen von Robotern in variablen Umgebungen wesentlich robuster macht.

Kontrolle

Öffnen Sie die X-Verkörperung

Open Es wurde geschaffen, um es zu ermöglichen Co-Training über Ausführungsformen hinweg – die Hypothese ist, dass vielfältige Robotererfahrungen umfassendere Manipulationsdarstellungen lehren als Einzelroboter-Datensätze allein. RT-X, das auf OXE trainierte Modell, zeigte einen positiven Transfer zwischen den Ausführungsformen und eine verbesserte Leistung bei angehaltenen Aufgaben im Vergleich zu Basislinien mit einer einzelnen Ausführungsform. OXE-Daten sind öffentlich verfügbar und haben eine Welle der verkörperungsübergreifenden Robotikforschung ausgelöst.

DatensatzStiftungsmodellMehrfachverkörperung

P

Nutzlast

Nutzlast ist die maximale Masse (einschließlich des Gewichts aller Endeffektoren und Werkzeuge), die ein Roboterarm tragen kann, während er seine Nennpositionsgenauigkeit und dynamische Leistung beibehält. Die Nutzlastspezifikationen reichen typischerweise von unter 1 kg für kollaborative Forschungsroboter (WidowX 250: 250 g) bis zu 500+ kg für große Industriewaffen. Entscheidend ist, dass die Nennnutzlast normalerweise bei voller Reichweite und vollständig ausgestrecktem Arm angegeben wird. Aus größerer Entfernung und günstigeren Körperhaltungen können Roboter oft deutlich mehr bewältigen. Das Überschreiten der Nutzlastgrenzen beeinträchtigt die Genauigkeit, beschleunigt den Verschleiß und kann zu Sicherheitsstörungen oder Sachschäden führen. SVRCs Hardware-Katalog listet die Nutzlast für jeden Roboter auf.

HardwareSpezifikationen

Politisch (Roboter)

Beim Roboterlernen ist eine Richtlinie (bezeichnet mit π) eine Funktion, die Beobachtungen auf Aktionen abbildet: π(o) → a. Die Richtlinie ist das erlernte „Gehirn“ des Roboters, das in jedem Zeitschritt anhand seiner Wahrnehmung bestimmt, was zu tun ist. Richtlinien können als neuronale Netze (neuronale Richtlinien), Entscheidungsbäume, Gaußsche Prozesse oder Nachschlagetabellen dargestellt werden. Sie können deterministisch (eine Aktion pro Beobachtung) oder stochastisch (eine Verteilung über Aktionen) sein. Die Qualität von Richtlinien wird anhand der Erfolgsquote bei Aufgaben unter verschiedenen Bedingungen gemessen, nicht nur anhand von Schulungsdemonstrationen. Die zentrale Herausforderung des Roboterlernens besteht darin, dass Trainingsrichtlinien zuverlässig über ihre Trainingsverteilung hinaus verallgemeinert werden.

KernkonzeptTiefes Lernen

Richtlinien-Rollout

Bei einem Richtlinien-Rollout handelt es sich um eine einzelne Episode der Ausführung einer trainierten Richtlinie auf dem Roboter (oder in der Simulation) von einem Anfangszustand bis zum Abschluss oder Timeout der Aufgabe. Rollouts werden verwendet, um die Richtlinienleistung zu bewerten, neue Daten für weitere Schulungen zu sammeln (wie bei der DAgger- oder RL-Feinabstimmung) und Fehlermodi zu debuggen. Die Anzahl der für eine zuverlässige Leistungsschätzung erforderlichen Rollouts hängt von der Aufgabenvariabilität ab – bei Aufgaben mit hoher Varianz können mehr als 50 Rollouts erforderlich sein, um eine stabile Erfolgsratenschätzung zu erhalten. In der Forschung werden Rollouts häufig nach dem Anfangszustand (in der Verteilung befindliche Objekte/Szenen außerhalb der Verteilung) kategorisiert, um die Generalisierung zu charakterisieren.

AuswertungPolitisch

Vorschulung

Beim Vortraining handelt es sich um die Phase der Modellentwicklung, in der ein neuronales Netzwerk anhand eines großen, vielfältigen Datensatzes trainiert wird, bevor eine aufgabenspezifische Feinabstimmung erfolgt. Für Robotik-Grundlagenmodelle kann das Vortraining anhand von Vision-Sprachdaten im Internetmaßstab (Bilder, Videos, Text), verkörperungsübergreifenden Roboterdatensätzen (Open X-Embodiment), synthetischen Simulationsdaten oder einer Kombination erfolgen. Das vorab trainierte Modell lernt umfangreiche allgemeine Darstellungen von Objekten, Aktionen und Konzepten, die sich auf nachgelagerte Roboteraufgaben übertragen lassen, und zwar mit weitaus weniger Demonstrationen als bei einem völlig neuen Training. Vortraining ist der Mechanismus hinter dem Erfolg von VLA-Modellen wie RT-2, das sowohl vom Vortraining auf Roboter- als auch im Internetmaßstab profitiert.

StiftungsmodellAusbildungTransferlernen

Q

Q-Funktion (Aktionswertfunktion)

Die Q-Funktion Q(s, a) schätzt die erwartete kumulative ermäßigte Belohnung, die ein Agent erhält, wenn er die Aktion a im Zustand s ergreift und anschließend einer bestimmten Richtlinie folgt. Q-Funktionen sind von zentraler Bedeutung für Reinforcement-Learning-Algorithmen wie DQN (diskrete Aktionen) und SAC, TD3 und DDPG (kontinuierliche Aktionen). Im Roboter-RL ist das Erlernen genauer Q-Funktionen für Manipulationsaufgaben mit langem Horizont eine Herausforderung, da die Belohnungen spärlich sind und der Zustands-Aktionsraum hochdimensional ist. Aktuelle Arbeiten im Offline-RL (IQL, CQL) nutzen Q-Funktionen, um Richtlinien aus festen Datensätzen ohne Online-Interaktion zu extrahieren und schließen so die Lücke zwischen Nachahmungslernen und RL.

VerstärkungslernenWertfunktion

Quasistatische Manipulation

Bei der quasi-statischen Manipulation wird davon ausgegangen, dass die Bewegung langsam genug ist, dass Trägheits- und dynamische Kräfte vernachlässigbar sind – das System befindet sich praktisch zu jedem Zeitpunkt im statischen Gleichgewicht. Diese Vereinfachung ermöglicht eine nachvollziehbare Modellierung der Kontaktmechanik zur Planung von Schiebe-, Gleit-, Schwenk- und Wiedergreifaktionen in der Hand. Viele Robotermanipulations-Benchmarks (einschließlich der meisten Pick-and-Place-Aufgaben auf dem Tisch) arbeiten im quasistatischen Bereich. Wenn Aufgaben schnelle Würfe, dynamische Fänge oder Hochgeschwindigkeitsmontagen beinhalten, versagen quasistatische Annahmen und es ist eine vollständige Starrkörperdynamik mit Kontaktsimulation (z. B. MuJoCo, Isaac Sim) erforderlich.

ManipulationMechanik

R

Real-zu-Sim-Übertragung

Real-zu-Sim-Übertragung (die Ergänzung von sim-to-real) beinhaltet die Konstruktion oder Kalibrierung einer Simulation, die der realen Welt so nahe wie möglich kommt – im Wesentlichen die Erstellung eines digitalen Zwillings der realen Bedingungen. Dies wird verwendet, um reale Fehlerfälle in der Simulation nachzubilden, zusätzliche synthetische Trainingsdaten zu generieren, die auf reale Sensoreigenschaften abgestimmt sind, und Richtlinienaktualisierungen vor dem Einsatz sicher zu testen. Zu den Techniken gehören die photogrammetrische Szenenrekonstruktion, die Identifizierung physikalischer Parameter (Systemidentifikation) und neuronale Rendering-Methoden (NeRF, 3D-Gauß-Splatting), um das Erscheinungsbild der Kamera anzupassen. Präzise Real-to-Sim-Pipelines reduzieren die Anzahl der für die Richtlinieniteration erforderlichen physischen Experimente erheblich.

SimulationDigitaler ZwillingDaten

Erreichen

Die Reichweite ist die maximale Entfernung von der Basis eines Roboterarms zu jedem Punkt, den sein Endeffektor innerhalb seines Arbeitsbereichs erreichen kann. Bei einem seriellen Arm entspricht die maximale Reichweite der Summe aller Verbindungslängen. Die effektive Reichweite bei einem Einsatz ist geringer – aufgrund der gemeinsamen Grenzen, der Vermeidung von Selbstkollisionen und der Notwendigkeit, sich Objekten aus mehreren Richtungen zu nähern. Reach bestimmt, welche Arbeitsplatzlayouts und Objektplatzierungen möglich sind. Bei der Auswahl von Robotern für eine Aufgabe müssen Ingenieure sicherstellen, dass der erforderliche Arbeitsbereich (einschließlich aller Annäherungsrichtungen zum Greifen) mit akzeptabler Genauigkeit innerhalb des erreichbaren Bereichs des Roboters liegt.

HardwareSpezifikationenKinematisch

Wiedergabepuffer

Ein Wiederholungspuffer (oder Erfahrungswiederholungsspeicher) ist ein Datensatz vergangener Übergänge (Zustand, Aktion, Belohnung, nächster Zustand, erledigt), die von einem RL-Agenten während der Umgebungsinteraktion gesammelt wurden. Bei jedem Trainingsschritt werden zufällige Mini-Batches aus dem Puffer abgetastet, um die Wertfunktion oder -richtlinie zu trainieren, wodurch zeitliche Korrelationen unterbrochen werden, die Gradientenaktualisierungen destabilisieren würden. Beim Offline-RL- und Roboterlernen wird der Wiedergabepuffer durch einen festen Datensatz menschlicher Demonstrationen oder zuvor gesammelter Rollouts ersetzt. Priorisierte Erfahrungswiederholungsgewichtungen, die anhand von zeitlichen Differenzfehlern abgetastet werden, um das Training auf informative Übergänge zu konzentrieren.

VerstärkungslernenDaten

Belohnungsfunktion

Die Belohnungsfunktion definiert das Lernziel für einen Reinforcement-Learning-Agenten: Sie weist jedem Übergang (Zustand, Aktion, nächster Zustand) ein skalares Belohnungssignal r(s, a, s') zu und teilt dem Agenten mit, wie gut oder schlecht seine Aktionen sind. Das Design von Belohnungsfunktionen ist einer der schwierigsten Teile bei der Anwendung von RL auf die Robotik: spärliche Belohnungen (1 bei Erfolg, 0 sonst) sind sauber, führen aber zu langsamem Lernen; Dichte Belohnungen (z. B. negative Distanz zum Ziel) leiten das Lernen, können aber auf unerwartete Weise manipuliert werden (Belohnungs-Hacking). Zu den Alternativen gehören Belohnungslernen aus Demonstrationen (IRL, RLHF), aufgabenspezifische Simulationsmetriken und erlernte Präferenzmodelle. Durch Nachahmungslernen wird das Belohnungsdesignproblem vollständig umgangen, indem direkt aus Demonstrationen gelernt wird.

VerstärkungslernenKernkonzept

S

Sim-zu-Real-Übertragung

Beim Sim-to-Real-Transfer wird eine Roboterrichtlinie vollständig oder hauptsächlich in der Simulation trainiert und dann auf einem physischen Roboter eingesetzt, mit dem Ziel, dass die Richtlinie ohne (oder mit minimalen) zusätzlichen realen Daten funktioniert. Die zentrale Herausforderung besteht darin Realitätslücke – Unterschiede in der physikalischen Genauigkeit, dem visuellen Erscheinungsbild, dem Sensorrauschen und der unmodellierten Dynamik zwischen Simulation und der realen Welt. Zu den wichtigsten Abhilfetechniken gehören die Domänenrandomisierung (Randomisierung von Simulationsparametern während des Trainings), die Systemidentifikation (Kalibrierung der Simulation an die reale Hardware) und die adaptive Feinabstimmung kleiner Mengen realer Daten. Siehe die ausführlicher Artikel.

TransferlernenSimulationEinsatz

Zustandsraum

Der Zustandsraum ist der vollständige Satz von Konfigurationen, in denen sich ein Roboter und seine Umgebung befinden können. In RL kodiert der Markov-Zustand alle Informationen, die zur Vorhersage zukünftiger Belohnungen und Zustandsübergänge erforderlich sind – idealerweise eine vollständige Beschreibung der Welt. In der Praxis hat der Agent nur Zugriff auf Teilbeobachtungen (Bilder, Gelenkwinkel), die den Zustand möglicherweise nicht vollständig erfassen (z. B. verdeckte Objekte, unbekannte physikalische Parameter). Die Gestaltung eines Beobachtungsraums, der sich dem Markov-Zustand gut annähert und gleichzeitig rechnerisch nachvollziehbar bleibt, ist eine zentrale Herausforderung beim Entwurf von Roboter-Lernsystemen.

VerstärkungslernenKontrolle

Chirurgische Robotik

In der chirurgischen Robotik werden Robotersysteme auf medizinische Eingriffe angewendet, am bekanntesten ist die Da-Vinci-Plattform von Intuitive Surgical für minimalinvasive laparoskopische Chirurgie. Chirurgische Roboter bieten Bewegungsskalierung (Übersetzung großer Bedienerbewegungen in Instrumentenbewegungen im Submillimeterbereich), Tremorfiltration und eine verbesserte Visualisierung im Inneren des Patienten. Neue Forschungsergebnisse erforschen autonome chirurgische Teilaufgaben (Nähen, Geweberetraktion), KI-gestützte Führung und Telechirurgie über 5G-Verbindungen mit geringer Latenz. Die behördliche Zulassung (FDA 510(k) oder PMA für die USA) erhöht den Validierungsaufwand erheblich. Die chirurgische Robotik steht an der Schnittstelle von Teleoperation, HRI, Und kontaktreiche Manipulation.

MedizinischTeleoperationAnwendung

T

Aufgabenparametrisiertes Lernen

Aufgabenparametrisiertes Lernen kodiert Demonstrationen relativ zu mehreren Koordinatenrahmen oder Aufgabenparametern (z. B. der Pose des Objekts, einem Zielort, einem Hindernisrahmen) und nicht in einem festen Weltrahmen. Bei der Ausführung passt sich die Richtlinie ohne erneutes Training automatisch an neue Objekt- und Zielkonfigurationen an, da sie die Bewegung relativ zu aufgabenrelevanten Referenzen gelernt hat. Aufgabenparametrisierte Gaußsche Mischungsmodelle (TP-GMM) und kernisierte Bewegungsprimitive sind klassische Implementierungen. Dieser Ansatz bietet eine starke geometrische Verallgemeinerung für strukturierte Pick-and-Place-Aufgaben, erfordert jedoch, dass Aufgabenrahmen zur Laufzeit identifiziert und verfolgt werden.

NachahmungslernenVerallgemeinerungPolitisch

Teleoperation

Teleoperation ist die Fernsteuerung eines Roboters durch einen menschlichen Bediener, die sowohl zur direkten Ausführung von Aufgaben (chirurgische Roboter, Weltraumrobotik, Bombenentschärfung) als auch als primäre Methode zur Erfassung hochwertiger Nachahmungslerndemonstrationen eingesetzt wird. Beim Lernen von Robotern verwendet ein gängiger Aufbau eine Leader-Follower-Architektur: Der Bediener bewegt einen leichten Leader-Arm und der Roboter (Follower) verfolgt den Leader in Echtzeit. VR-basierte Teleoperationssysteme (mittels Handtracking oder Controllern) erfreuen sich zunehmender Beliebtheit, da sie ergonomischer sind und einen höheren Datendurchsatz ermöglichen. SVRC bietet professionelle Teleoperation Datenerfassungsdienste für Roboter-Lernteams in Unternehmen.

DatenerfassungNachahmungslernenHardware

Flugbahn

Eine Trajektorie ist eine zeitparametrisierte Abfolge von Roboterzuständen (Gelenkwinkel oder kartesische Posen), die beschreibt, wie sich der Roboter von einer Startkonfiguration zu einem Ziel bewegt. Trajektorien können durch Bewegungsplaner (Planung eines kollisionsfreien Pfads und anschließende zeitliche Parametrisierung für eine reibungslose Ausführung), durch Teleoperationsaufzeichnung (Erfassung der Bewegung des Bedieners mit einer festen Frequenz) oder direkt durch eine neuronale Richtlinie vorhergesagt werden. Die Glätte der Flugbahn und die Kontinuität der Geschwindigkeit sind wichtig für die physische Sicherheit des Roboters – abrupte Unterbrechungen verursachen mechanische Belastungen und können Sicherheitsstopps auslösen. Zu den Trajektoriendarstellungen gehören Splines, dynamische Bewegungsprimitive (DMPs) und diskrete Wegpunktsequenzen.

PlanungKontrolleDaten

Transferlernen

Beim Transferlernen in der Robotik geht es darum, ein in einer Domäne (z. B. Internet-Vision-Sprachdaten, Simulation oder ein anderer Roboter) vorab trainiertes Modell zu nehmen und es mit begrenzten zusätzlichen Daten an eine Zielaufgabe oder einen Zielroboter anzupassen. Die Feinabstimmung der letzten Schichten eines vorab trainierten Backbones anhand von Roboterdemonstrationsdaten ist der gängigste Ansatz. Die vollständige Feinabstimmung aller Gewichte wird verwendet, wenn ausreichend Roboterdaten verfügbar sind. Transferlernen ist der Mechanismus, der es schafft Fundamentmodelle praktisch für die Robotik – die Alternative, allein anhand von Roboterdaten von Grund auf zu trainieren, würde Millionen von Demonstrationen erfordern. Siehe auch Vorschulung, Sim-zu-Real-Übertragung.

StiftungsmodellAusbildung

U

URDF (Einheitliches Roboterbeschreibungsformat)

URDF ist ein XML-basiertes Dateiformat, das die kinematischen und dynamischen Eigenschaften eines Roboters beschreibt: Verbindungen (starre Körper mit Masse, Trägheit und visuellen/Kollisionsnetzen) und Gelenke (die Verbindungen zwischen Verbindungen mit Typ, Achse, Grenzen und Dämpfungsparametern). URDF ist das Standard-Roboterbeschreibungsformat in ROS und wird von allen wichtigen Simulationsplattformen (Isaac Sim, MuJoCo, Gazebo, PyBullet) unterstützt. Es ermöglicht das Laden der Roboterkinematik in Bewegungsplaner wie MoveIt, die Visualisierung des Roboters in RViz und die Instanziierung physikalischer Simulationsmodelle. XACRO (XML-Makrosprache) wird häufig zur Parametrisierung und Modularisierung von URDF-Dateien für komplexe Roboter verwendet. OpenArm und die meisten SVRC-Hardware verfügen über öffentlich verfügbare URDF-Modelle.

WerkzeugStandardSimulation

V

VLA (Vision-Sprache-Aktionsmodell)

Ein Vision-Language-Action-Modell ist ein neuronales Netzwerk, das visuelle Beobachtungen (RGB-Bilder), Anweisungen in natürlicher Sprache und die Propriozeption von Robotern gemeinsam verarbeitet, um Aktionsausgaben zu erzeugen. VLAs erweitern große Vision-Sprach-Modelle (VLMs wie PaLM-E, LLaVA oder Gemini), indem sie einen Aktionskopf hinzufügen und so das Modell trainieren, neben seinen Sprachvorhersagen auch Robotergelenkpositionen oder Endeffektor-Deltas auszugeben. Zu den bemerkenswerten VLAs gehören RT-2 (tokenisiert Aktionen als Text-Tokens und optimiert ein VLM), OpenVLA (Open-Source, 7B-Parameter, trainiert auf Open X-Embodiment) und pi0 (Flow-Matching-VLA von Physical Intelligence). Siehe die VLA- und VLM-Artikel und die SVRC-Modellkatalog.

StiftungsmodellSpracheKernkonzept

ViperX

ViperX ist eine Serie von 6-DOF-Roboterarmen von Trossen Robotics, die aufgrund ihrer geringen Kosten, ROS-Unterstützung und Kompatibilität mit dem DYNAMIXEL-Servo-Ökosystem häufig in der akademischen Roboterlernforschung eingesetzt werden. Der ViperX 300 (mit 300 mm Reichweite) und der ViperX 300-S gehören zu den häufigsten Forschungsarmen, die in nachgeahmten Lernaufbauten zu finden sind, und sind die Folgearme im Original ALOHA System. ViperX-Arme haben im Vergleich zu Industrierobotern eine bescheidene Nutzlast (~750 g) und Genauigkeit, bieten aber einen zugänglichen Einstiegspunkt für die Manipulationsforschung. Durchsuchen Sie SVRCs Baumarkt für Verfügbarkeit.

HardwareForschungsroboter

Visuelle Servosteuerung

Visual Servoing nutzt Kamerarückmeldungen in einem Regelkreis, um einen Roboter zu einem Ziel zu führen, das im Bildraum (Image-Based Visual Servoing, IBVS) oder im 3D-Raum, der aus Bildern geschätzt wird (Position-Based Visual Servoing, PBVS), definiert ist. In IBVS minimiert der Controller den Fehler zwischen erkannten Bildmerkmalen (Schlüsselpunkte, Objektbegrenzungsrahmen) und ihren gewünschten Positionen in der Bildebene, ohne explizit 3D-Posen zu berechnen. Visual Servoing ist attraktiv, weil es Kalibrierungsfehler und Fehlausrichtungen zwischen Kamera und Roboter direkt ausgleicht. Moderne Deep-Learning-Varianten trainieren neuronale Netze, Servogeschwindigkeitsbefehle direkt aus Rohbildern auszugeben, was eine robuste Ausrichtung auf neuartige Objekte ermöglicht.

KontrolleWahrnehmungGeschlossener Kreislauf

W

Wegpunkt

Ein Wegpunkt ist eine Zwischenkonfiguration (Gelenkwinkel oder kartesische Haltung), die die Flugbahn eines Roboters auf dem Weg vom Start zum Ziel durchlaufen muss. Wegpunkte ermöglichen es Programmierern und Planern, den Weg des Roboters durch bestimmte Posen zu steuern – beispielsweise um einem Hindernis auszuweichen, sich einem Objekt aus einer sicheren Richtung zu nähern oder einen mehrstufigen Montagevorgang zu durchlaufen. Beim Lernen von Robotern geben Richtlinien auf hoher Ebene manchmal Wegpunkte aus, die ein Bewegungsplaner auf niedrigerer Ebene in glatte gemeinsame Trajektorien interpoliert, wodurch die Generalisierungsvorteile erlernter Richtlinien mit den Sicherheitsgarantien der klassischen Planung kombiniert werden.

PlanungFlugbahn

Ganzkörperkontrolle (WBC)

Die Ganzkörpersteuerung koordiniert alle Gelenke eines Roboters mit Beinen oder eines humanoiden Roboters gleichzeitig, um mehrere konkurrierende Ziele zu erfüllen – Gleichgewicht halten, Endeffektorziele verfolgen, Gelenkgrenzen vermeiden und Kontaktkräfte verwalten – gelöst als ein in Echtzeit eingeschränktes Optimierungsproblem (typischerweise ein QP). WBC ist für Humanoide und Manipulatoren mit Beinen von entscheidender Bedeutung, da die Basis nicht fest ist: Armbewegungen verschieben den Schwerpunkt und müssen durch Bein- und Rumpfanpassungen ausgeglichen werden. WBC-Frameworks wie Drake, Pinocchio und OCS2 werden häufig in der Humanoidenforschung verwendet. Die Mobile ALOHA-Plattform und der Boston Dynamics Atlas basieren auf Ganzkörper-Controllern zur Lokmanipulation. Sehen WBC-Artikel.

KontrolleHumanoidFortbewegung

Arbeitsplatz

Der Arbeitsbereich eines Roboters ist die Menge aller Positionen (und Ausrichtungen), die der Endeffektor angesichts der kinematischen Struktur und der Gelenkgrenzen des Roboters erreichen kann. Der erreichbarer Arbeitsplatz sind alle Positionen, die der Endeffektor in mindestens einer Ausrichtung erreichen kann; Die geschickter Arbeitsbereich ist die kleinere Teilmenge, die in jeder Ausrichtung erreichbar ist – der nützlichste Bereich für Manipulationsaufgaben, die beliebige Annäherungswinkel erfordern. Die Arbeitsbereichsanalyse informiert über das Zellenlayout (wie weit Roboter und Teile voneinander entfernt sein sollten), die Roboterauswahl (Anpassung der Reichweite an das Aufgabenlayout) und die Bewegungsplanung (Identifizierung singularitätsfreier Pfade durch den Arbeitsbereich).

KinematischHardwarePlanung

Z

Zarin (Datenformat)

Zarr ist ein Open-Source-Format zum Speichern von n-dimensionalen Arrays in fragmentierter, komprimierter Form, das für Cloud-native und parallele I/O-Workloads entwickelt wurde. In der Robotik wird Zarr verwendet, um große Roboterdemonstrationsdatensätze (Bilder, Gelenkzustände, Aktionen) in einem Format zu speichern, das effizient aus dem Objektspeicher (S3, GCS) gelesen werden kann, ohne dass ganze Dateien heruntergeladen werden müssen. Im Gegensatz zu HDF5Zarr unterstützt gleichzeitige Schreibvorgänge und eignet sich daher für verteilte Datenerfassungspipelines. Zarr v3 standardisierte das Format und fügte Unterstützung für Sharding (Kombination vieler kleiner Blöcke in weniger große Dateien) hinzu, was die Effizienz des Cloud-Speichers verbessert. Projekte wie LeRobot und mehrere autonome Fahrzeugdatensätze haben Zarr für das Hosting großer Datensätze übernommen.

DatenLagerungMaschinenbau

Zero-Shot-Generalisierung

Zero-Shot-Generalisierung ist die Fähigkeit einer trainierten Richtlinie, Aufgaben, Objekte oder Umgebungen, die sie während des Trainings nie explizit gesehen hat, erfolgreich auszuführen, ohne dass zusätzliche Feinabstimmungen oder Demonstrationen erforderlich sind. Eine echte Zero-Shot-Übertragung ist ein Hauptziel von Robot-Foundation-Modellen – eine Richtlinie, die Zero-Shot auf neuartige Haushaltsgegenstände oder neue Sprachanweisungen verallgemeinert, würde den Datenerfassungsaufwand drastisch reduzieren. Aktuelle VLA-Modelle zeigen eine vielversprechende Zero-Shot-Sprachgeneralisierung (Verstehen neuartiger Formulierungen bekannter Aufgabentypen), haben aber immer noch Probleme mit wirklich neuartigen Objektkategorien oder völlig neuen Manipulationsfähigkeiten. Die Verbesserung der Zero-Shot-Leistung ist die zentrale Motivation für die Skalierung von Roboterdatensätzen und Modellgrößen. Siehe auch Artikel zum Zero-Shot-Transfer.

VerallgemeinerungStiftungsmodellForschungsgrenze

Zu Ihrer Suche passen keine Begriffe

Versuchen Sie es mit einem kürzeren Begriff oder überprüfen Sie die Rechtschreibung. Alle 65 Begriffe werden oben aufgelistet, wenn die Suche gelöscht wird.

Benötigen Sie Roboterdaten für Ihr Lernprojekt?

Wir sammeln hochwertige, lernbereite Demonstrationen für Nachahmungslernen und RL – von der Tischmanipulation bis hin zu mobilen bimanuellen Aufgaben.