Roboterkamera-Setup für die Datenerfassung: Handgelenk, Überkopf und Stereo

Die Platzierung der Kamera ist eine der wichtigsten und am häufigsten unterspezifizierten Entscheidungen bei der Roboterdatenerfassung. Die Beobachtungen, die Ihre Richtlinie während des Trainings sieht, müssen mit denen übereinstimmen, die sie während der Bereitstellung sieht – und eine falsche Kameraeinrichtung bedeutet, dass Daten gesammelt werden, die keine zuverlässige Richtlinie trainieren können.

Strategie zur Kameraplatzierung

Der erste Grundsatz bei der Platzierung von Roboterkameras lautet: Kameras, die zur Datenerfassung verwendet werden, müssen in der Montageposition mit den Kameras identisch sein, die für die Richtlinienbereitstellung verwendet werden. Von dieser Diskrepanz gibt es keine Erholung – eine auf Handgelenkskameraansichten trainierte Richtlinie kann nicht auf eine Overhead-Kameraansicht verallgemeinert werden und umgekehrt. Definieren Sie die Konfiguration Ihrer Bereitstellungskamera, bevor Sie eine einzelne Episode von Trainingsdaten erfassen.

Die häufigsten Konfigurationen in der Manipulationsforschung sind: nur am Handgelenk (eine Kamera ist am Handgelenk des Roboters montiert und blickt nach vorne auf den Manipulationsarbeitsplatz); Nur über Kopf (eine oder zwei Kameras, montiert auf einem festen Overhead-Rig); und Multi-View (Handgelenkkamera plus eine oder zwei externe Kameras, die den globalen Arbeitsbereichskontext bereitstellen). Multi-View-Konfigurationen übertreffen Single-View-Konfigurationen bei der Richtlinienleistung durchweg, allerdings auf Kosten einer komplexeren Aufzeichnungsinfrastruktur.

Handgelenkkameras: Vor- und Nachteile sowie Best Practices

Handgelenkkameras ermöglichen einen Blick aus der ersten Person auf den Manipulationsvorgang – der Roboter sieht ungefähr, was er an seinem Endeffektor tut. Dieser Standpunkt ist sehr aufschlussreich für feine Greif- und Einführaufgaben, bei denen die Beziehung zwischen Greifer und Objekt genau wahrgenommen werden muss. Handgelenkkameras folgen dem Greifer außerdem automatisch durch den Arbeitsbereich und stellen so sicher, dass sich das Zielobjekt während der Manipulation immer im Bild befindet.

Die Haupteinschränkung von Handgelenkkameras besteht darin, dass sie den globalen Arbeitsbereich nicht sehen – der Roboter kann keine Objekte erkennen, die weit von seiner aktuellen Greifposition entfernt sind, ohne den Arm zu bewegen. Dies schränkt ihre Wirksamkeit bei Aufgaben ein, die ein Verständnis auf Szenenebene oder eine bimanuelle Koordination erfordern. Bei bimanuellen Systemen sollte jeder Arm eine eigene Handgelenkkamera tragen. Empfohlene Spezifikationen: 1080p oder höhere Auflösung, 60+ fps, Global Shutter (kein Rolling Shutter), um Bewegungsunschärfe bei schnellen Bewegungen zu vermeiden, und ein Weitwinkelobjektiv (90–110 Grad Sichtfeld), um den Kontaktpunkt des Griffs auch aus nächster Nähe im Blick zu behalten.

Overhead-Kameras: Konfiguration und Kompromisse

Fest installierte Overhead-Kameras sorgen für stabile, konsistente Ansichten des Arbeitsbereichs, die die gesamte Manipulationsszene erfassen. Sie reagieren weniger empfindlich auf Armbewegungen und bieten einen besseren Kontext für Aufgaben, die mehrere aufeinanderfolgende Schritte in verschiedenen Arbeitsbereichsbereichen erfordern. Overhead-Kameras lassen sich einfacher konsistent über mehrere Roboterstationen hinweg montieren, was für groß angelegte Datenerfassungskampagnen wichtig ist.

Die Einschränkung besteht in der Detailreduzierung am Manipulationskontaktpunkt. Eine Overhead-Kamera aus 80 cm Höhe, die auf einen Tischarbeitsplatz blickt, kann die Kontaktgeometrie zwischen Greifer und Objekt bei kleinen Objekten nicht zuverlässig beobachten. Aus diesem Grund werden Overhead-Kameras in leistungsstarken Datenerfassungskonfigurationen typischerweise mit Handgelenkkameras gekoppelt – die Overhead-Ansicht bietet Aufgabenkontext und grobe Positionierung, während die Handgelenksansicht feine Manipulationsdetails liefert.

Auflösung, Bildrate und Synchronisierung

Für die Manipulationsdatenerfassung sind 480p–720p pro Kamera bei 30 fps für die meisten Imitationslernrichtlinien im Jahr 2026 ausreichend. Eine höhere Auflösung (1080p) verbessert die Leistung bei Aufgaben, die eine feine räumliche Unterscheidung erfordern. Bildraten unter 30 fps führen zu zeitlichem Aliasing, das das Lernen von Richtlinien bei schnellen Aufgaben beeinträchtigt. Bildraten über 60 fps führen bei den meisten Manipulationsaufgaben zu geringeren Erträgen und erhöhen den Speicherbedarf erheblich.

Die Synchronisierung mehrerer Kameras ist von entscheidender Bedeutung und wird häufig vernachlässigt. Wenn Kameras nicht hardwaresynchronisiert sind, muss der Zeitstempelabgleich beim Laden der Daten sorgfältig durchgeführt werden. Selbst ein Kameraversatz von 33 ms (ein Bild mit 30 Bildern pro Sekunde) kann zu Trainingsinstabilität bei Aufgaben führen, bei denen die Handgelenk- und die Draufsicht zeitlich konsistent sein müssen. Die Intel RealSense D435- und D455-Serien unterstützen die Hardware-Synchronisierung über ein Synchronisierungskabel und sind die bevorzugte Wahl von SVRC für synchronisierte Multi-Kamera-Setups.

Tiefenkameras

Tiefenkameras bieten zusätzlich zu RGB-Bildern Abstandsmessungen pro Pixel und ermöglichen so ein 3D-Szenenverständnis ohne explizite Stereorekonstruktion. Intel RealSense-, Microsoft Azure Kinect- und ZED-Kameras sind die am häufigsten verwendeten Tiefensensoren bei der Roboterdatenerfassung. Tiefeninformationen sind wertvoll für Aufgaben, bei denen Objekthöhe, -form oder 3D-Position für die Greifplanung wichtig sind, und für Richtlinien, die Punktwolkeneingaben statt reiner Bildeingaben verwenden.

Der Nachteil: Tiefenkameras erhöhen das Gewicht, die Kosten und die Verarbeitungslast. Viele hochmoderne Nachahmungs-Lernergebnisse werden mit reinen RGB-Kameras erzielt, was darauf hindeutet, dass Tiefe nicht immer erforderlich ist. Verwenden Sie Tiefe, wenn Ihre Richtlinienarchitektur explizit von 3D-Eingaben profitiert, wenn Aufgaben erhebliche Tiefenschwankungen beinhalten (Stapeln von Objekten unterschiedlicher Höhe) oder wenn Sie eine robuste Leistung bei variablen Lichtverhältnissen benötigen (Tiefe ist beleuchtungsinvarianter als RGB).

Kalibrierung und SVRCs Multi-Kamera-Standard

Jede Kamera muss kalibriert werden – intrinsische Kalibrierung (Brennweite, Verzerrungskoeffizienten) und extrinsische Kalibrierung (Position und Ausrichtung relativ zur Roboterbasis), bevor mit der Datenerfassung begonnen wird. Verwenden Sie zur Kalibrierung ein physisches Schachbrettziel und kalibrieren Sie es nach jeder Kamerabewegung oder -anpassung neu. Speichern Sie Kalibrierungsparameter als Metadaten mit jedem Datensatz.

Der Datenerfassungsstandard von SVRC verwendet eine feste Konfiguration mit drei Kameras: eine Handgelenkkamera pro Arm und eine kalibrierte Overhead-Kamera pro Station. Physische Kamerahalterungen sind Teil unseres standardisierten Arbeitsplatzdesigns und gewährleisten eine einheitliche Platzierung in unserer gesamten Einrichtung. Alle Kalibrierungsparameter werden automatisch protokolliert und in Datensatzexporte einbezogen. Für Teams, die ihre eigene Datenerfassungsinfrastruktur einrichten, bietet SVRC Beratung zur Kameraeinrichtung an und kann vorkalibrierte Kamerabaugruppen liefern – Kontaktieren Sie uns oder sehen Sie sich unsere an Datendienste-Seite für Einzelheiten.

Verwandt: Mobiles ALOHA-Setup · Annotation von Roboterdaten · Kraft-Drehmoment-Erkennung · Datendienste