Collecte de données

Configuration de la caméra du robot pour la collecte de données : poignet, aérien et stéréo

Le placement de la caméra est l’une des décisions les plus importantes et les plus souvent sous-spécifiées dans la collecte de données robotisées. Les observations que votre politique voit pendant la formation doivent correspondre à celles qu'elle verra pendant le déploiement. Et une mauvaise configuration de la caméra signifie collecter des données qui ne peuvent pas former une politique fiable.

Stratégie de placement de la caméra

Le premier principe du placement des caméras des robots est le suivant : les caméras utilisées pour la collecte de données doivent être identiques en termes de position de montage aux caméras utilisées pour le déploiement des politiques. Il n’y a aucune possibilité de guérison de cette inadéquation : une politique axée sur les vues de caméras au poignet ne peut pas être généralisée à une vue de caméra aérienne, et vice versa. Définissez la configuration de votre caméra de déploiement avant de collecter un seul épisode de données de formation.

Les configurations les plus courantes dans la recherche sur la manipulation sont : au poignet uniquement (une caméra montée sur le poignet du robot, regardant vers l'avant l'espace de travail de manipulation) ; aérien uniquement (une ou deux caméras montées sur un support aérien fixe) ; et multi-vue (caméra-bracelet plus une ou deux caméras externes offrant un contexte global d'espace de travail). Les configurations à vues multiples surpassent systématiquement les configurations à vue unique en termes de performances des politiques, au prix d'une infrastructure d'enregistrement plus complexe.

Caméras-bracelets : avantages, inconvénients et meilleures pratiques

Les caméras au poignet offrent une vue à la première personne de l'action de manipulation : le robot voit approximativement ce qu'il fait au niveau de son effecteur final. Ce point de vue est très instructif pour les tâches de préhension et d'insertion fines où la relation entre la pince et l'objet doit être perçue avec précision. Les caméras au poignet suivent également automatiquement la pince dans l'espace de travail, garantissant ainsi que l'objet cible est toujours dans le cadre pendant la manipulation.

La principale limitation des caméras-bracelets est qu'elles ne voient pas l'espace de travail global : le robot ne peut pas percevoir les objets éloignés de sa position actuelle de préhension sans bouger le bras. Cela limite leur efficacité pour les tâches nécessitant une compréhension au niveau de la scène ou une coordination bimanuelle. Pour les systèmes bimanuels, chaque bras doit porter sa propre caméra au poignet. Spécifications recommandées : résolution 1080p ou supérieure, 60+ ips, obturateur global (et non obturateur roulant) pour éviter le flou de mouvement lors des mouvements rapides, et un objectif grand angle (FOV de 90 à 110 degrés) pour maintenir la vue du point de contact de préhension à courte distance.

Caméras aériennes : configuration et compromis

Les caméras aériennes fixes offrent des vues stables et cohérentes de l’espace de travail qui capturent l’intégralité de la scène de manipulation. Ils sont moins sensibles aux mouvements des bras et offrent un meilleur contexte pour les tâches nécessitant plusieurs étapes séquentielles dans différentes régions de l'espace de travail. Les caméras aériennes sont plus simples à monter de manière cohérente sur plusieurs stations robotisées, ce qui est important pour les campagnes de collecte de données à grande échelle.

La limitation réside dans la réduction des détails au point de contact de manipulation. Une caméra aérienne située à 80 cm de hauteur et regardant vers le bas un espace de travail sur une table ne peut pas observer de manière fiable la géométrie de contact pince-objet sur de petits objets. C'est pourquoi les caméras aériennes sont généralement associées à des caméras-bracelets dans les configurations de collecte de données hautes performances : la vue aérienne fournit un contexte de tâche et un positionnement approximatif, tandis que la vue du poignet fournit des détails de manipulation fins.

Résolution, fréquence d'images et synchronisation

Pour la collecte de données de manipulation, une résolution de 480p à 720p par caméra à 30 ips est suffisante pour la plupart des politiques d'apprentissage par imitation en 2026. Une résolution plus élevée (1080p) améliore les performances sur les tâches nécessitant une discrimination spatiale fine. Des fréquences d'images inférieures à 30 ips introduisent un alias temporel qui dégrade l'apprentissage des politiques sur les tâches rapides. Les fréquences d'images supérieures à 60 ips offrent des rendements décroissants pour la plupart des tâches de manipulation et augmentent considérablement les besoins de stockage.

La synchronisation multi-caméras est essentielle et souvent négligée. Si les caméras ne sont pas synchronisées au niveau matériel, l’alignement de l’horodatage doit être soigneusement mis en œuvre lors du chargement des données. Même un décalage inter-caméra de 33 ms (une image à 30 ips) peut introduire une instabilité de l'entraînement pour les tâches où les vues du poignet et du dessus doivent être temporellement cohérentes. Les séries Intel RealSense D435 et D455 prennent en charge la synchronisation matérielle via un câble de synchronisation et constituent le choix préféré de SVRC pour les configurations multi-caméras synchronisées.

Caméras de profondeur

Les caméras de profondeur fournissent des mesures de distance par pixel en plus des images RVB, permettant une compréhension de la scène 3D sans reconstruction stéréo explicite. Les caméras Intel RealSense, Microsoft Azure Kinect et ZED sont les capteurs de profondeur les plus couramment utilisés dans la collecte de données robotiques. Les informations de profondeur sont utiles pour les tâches dans lesquelles la hauteur, la forme ou la position 3D de l'objet sont importantes pour la planification, ainsi que pour les politiques qui utilisent des entrées de nuages de points plutôt que des entrées d'images pures.

Le compromis : les caméras de profondeur ajoutent du poids, du coût et de la charge de traitement. De nombreux résultats d’apprentissage d’imitation de pointe sont obtenus avec des caméras RVB pures, ce qui suggère que la profondeur n’est pas toujours nécessaire. Utilisez la profondeur lorsque votre architecture politique bénéficie explicitement de l'entrée 3D, lorsque les tâches impliquent des variations de profondeur significatives (empilage d'objets de différentes hauteurs) ou lorsque vous avez besoin de performances robustes dans des conditions d'éclairage variables (la profondeur est plus invariante en fonction de l'éclairage que le RVB).

Étalonnage et norme multi-caméras SVRC

Chaque caméra doit être calibrée – calibrage intrinsèque (distance focale, coefficients de distorsion) et calibrage extrinsèque (position et orientation par rapport à la base du robot) avant le début de la collecte de données. Utilisez une cible physique en damier pour l’étalonnage et recalibrez-la après tout mouvement ou réglage de la caméra. Stockez les paramètres d’étalonnage sous forme de métadonnées avec chaque ensemble de données.

La norme de collecte de données du SVRC utilise une configuration fixe à trois caméras : une caméra de poignet par bras et une caméra aérienne calibrée par station. Les supports de caméra physiques font partie de la conception standardisée de notre poste de travail, garantissant un placement cohérent dans toute notre installation. Tous les paramètres d'étalonnage sont enregistrés automatiquement et inclus dans les exportations d'ensembles de données. Pour les équipes qui mettent en place leur propre infrastructure de collecte de données, SVRC propose des conseils sur la configuration des caméras et peut fournir des assemblages de caméras précalibrés : Contactez-nous ou consultez notre page des services de données pour plus de détails.