Glossaire de la robotique

Plus de 60 termes couvrant l'apprentissage par imitation, les modèles VLA, la téléopération, la cinématique et l'IA incarnée, rédigés pour les chercheurs, les ingénieurs et les équipes d'entreprise.

65 termes A à Z organisée Mis à jour 2026

A

ACT (Action Chunking avec des transformateurs)

ACT est un algorithme d'apprentissage par imitation introduit par Tony Zhao et al. (2023) qui entraîne une politique basée sur un transformateur pour prédire un morceau de longueur fixe d'actions futures plutôt qu'une seule action à chaque pas de temps. En prédisant les séquences d'action en une seule fois, ACT réduit l'erreur de composition typique du clonage comportemental étape par étape et produit un mouvement temporellement cohérent. L'architecture code les observations RVB et l'état proprioceptif via un encodeur de style CVAE et décode les morceaux d'action à l'aide d'un transformateur. ACT a été démontré sur le ALOHA plate-forme bimanuelle, permettant d'obtenir de solides performances dans des tâches telles que l'ouverture d'un sac et le transfert d'œufs. Voir aussi : Action Chunking (analyse approfondie).

PolitiqueTransformateurApprentissage par imitation

Espace d'action

L’espace d’action est l’ensemble complet des résultats qu’une politique de robot peut produire à chaque pas de temps. Pour un bras de robot, cela comprend généralement des positions articulaires, des vitesses articulaires ou des poses d'effecteurs terminaux (position cartésienne + quaternion) ; pour un robot mobile, cela inclut les vitesses des roues ou les commandes de direction. Les espaces d'action sont décrits comme étant soit discrets (un menu fini d'actions), soit continus (vecteurs à valeur réelle). La dimensionnalité et la représentation de l'espace d'action influencent fortement la facilité avec laquelle il est possible de former une politique stable : les espaces de pose delta des effecteurs finaux sont souvent plus faciles à apprendre par imitation, tandis que les espaces de couple conjoint permettent un contrôle plus fin de la force mais nécessitent une normalisation plus minutieuse.

PolitiqueContrôle

ALOHA (Un système matériel open source à faible coût pour la téléopération bimanuelle)

ALOHA est un système de téléopération bimanuel open source développé à Stanford, composé de deux bras robotiques ViperX 300 et de deux bras leaders WidowX 250 montés sur un cadre partagé avec une caméra-bracelet intégrée. Il a été conçu pour collecter des données de démonstration de haute qualité à faible coût (la version originale coûte moins de 20 000 $) et soutient le ACT expériences politiques. Mobile ALOHA étend la plate-forme avec une base à roulettes, permettant des tâches de loco-manipulation de tout le corps telles que la cuisine et le nettoyage. Les ensembles de données ALOHA sont accessibles au public et sont devenus une référence de facto pour la recherche sur la manipulation bimanuelle. Apprenez-en davantage sur Services de données SVRC.

MatérielTéléopérationBimanuel

AMR (Robot mobile autonome)

Un robot mobile autonome navigue dans son environnement sans traces fixes ni guidage humain, à l'aide de capteurs embarqués (LiDAR, caméras, IMU) combinés à des algorithmes SLAM, de planification de trajectoire et d'évitement d'obstacles. Contrairement aux AGV (véhicules à guidage automatique) qui suivent des bandes magnétiques, les AMR créent et mettent à jour une carte en temps réel et réorientent dynamiquement les personnes et les objets. Les AMR d'entrepôt modernes d'entreprises telles que Boston Dynamics, Locus Robotics et 6 River Systems ont favorisé une large adoption dans le secteur de la logistique. Les AMR sont souvent combinés avec des bras manipulateurs pour créer manipulateurs mobiles capable de choisir et de placer à grande échelle.

Robotique mobileNavigationSLAM

B

Clonage comportemental (C.-B.)

Le clonage comportemental est la forme la plus simple de apprentissage par imitation: un problème de régression supervisée où la politique est entraînée à imiter les démonstrations d'experts en minimisant l'erreur de prédiction entre le résultat de la politique et l'action de l'expert à chaque état observé. BC est facile à mettre en œuvre et s'adapte bien aux données, mais souffre de changement de distribution — comme il ne reçoit jamais de retour correctif, de petites erreurs amènent le robot à visiter des états non présents dans les données d'entraînement, ce qui peut entraîner l'échec de la tâche. Des techniques telles que DAgger (Dataset Aggregation) et GAIL ont été développées spécifiquement pour résoudre le problème des erreurs de composition de la Colombie-Britannique.

Apprentissage par imitationApprentissage supervisé

Manipulation bimanuelle

La manipulation bimanuelle fait référence à des tâches qui nécessitent que deux bras de robot travaillent en coordination, de la même manière que les humains utilisent leurs deux mains simultanément. Les exemples incluent plier le linge, faire des nœuds, ouvrir des bocaux et assembler des pièces qui doivent être stabilisées d’une main pendant que l’autre effectue des opérations fines. Les tâches bimanuelles sont nettement plus difficiles que les tâches à un seul bras car la politique doit coordonner deux flux d'action de grande dimension tout en respectant les contraintes physiques entre les bras. Le ALOHA la plate-forme a été spécialement conçue pour collecter des démonstrations bimanuelles, et ACT fait partie des principales politiques de contrôle bimanuel.

ManipulationMatériel

BOM (Nomelle de matériaux)

Dans le matériel robotique, la nomenclature répertorie chaque composant, sous-ensemble, numéro de pièce, quantité et coût unitaire requis pour construire un système. Des nomenclatures précises sont essentielles à l'augmentation de la production, aux achats, à la gestion des risques de la chaîne d'approvisionnement et à la modélisation des coûts. Pour les plateformes robotiques open source telles qu'OpenArm ou ALOHA, une nomenclature publiée permet aux équipes externes de reproduire le matériel sans dépendances propriétaires. Les équipes d'entreprise évaluant le déploiement de robots demandent souvent une nomenclature pour comparer le coût total de possession par rapport aux alternatives de location ou de robot en tant que service - comparez Options de location SVRC.

MatérielFabrication

C

Espace cartésien (Espace des tâches)

L'espace cartésien (également appelé espace de tâches ou espace opérationnel) décrit la configuration d'un robot en termes de position et d'orientation de son effecteur final par rapport à un monde ou à un référentiel de base, généralement exprimé par (x, y, z, roulis, tangage, lacet) ou (x, y, z, quaternion). Contrôler un robot dans l'espace cartésien est souvent plus intuitif pour l'apprentissage par imitation, car les démonstrations humaines correspondent naturellement aux trajectoires des effecteurs finaux. La transformation de espace commun à l'espace cartésien s'appelle cinématique avant; l'inverse est cinématique inverse.

CinématiqueContrôle

Co-formation

La co-formation en robotique fait référence à la formation simultanée d'une politique unique sur les données de plusieurs modes de réalisation, tâches ou environnements de robots. L'hypothèse est que diverses sources de données enseignent à la politique des représentations visuelles et comportementales robustes qui se transfèrent mieux dans de nouveaux contextes. Le Ouvrir l'incarnation X L'ensemble de données a été assemblé spécifiquement pour permettre la co-formation sur plus de 22 types de robots. Les grands modèles de base comme RT-2 et OpenVLA s'appuient sur une co-formation avec des données de langage de vision à l'échelle Internet ainsi que des données de démonstration de robots pour amorcer la généralisation.

EntraînementGénéralisationModèle de fondation

Manipulation riche en contacts

Les tâches de manipulation riches en contacts sont celles pour lesquelles un contact ciblé et soutenu entre le robot et l'environnement est essentiel à la réussite de la tâche, comme l'insertion de chevilles dans un trou, le vissage de boulons, le pliage de tissu ou le pétrissage de la pâte. Ces tâches sont difficiles car de petites erreurs de position produisent des pics de force importants et des contrôleurs de position rigides peuvent endommager des pièces ou déstabiliser le robot. Les approches réussies combinent un contrôle conforme (contrôle d'impédance ou d'admission), détection de force-couple, et des politiques apprises qui anticipent et exploitent les contacts.

ManipulationContrôleDétection de force

Contrôle continu

Le contrôle continu fait référence aux politiques du robot qui génèrent des vecteurs d'action à valeur réelle (par exemple, couples articulaires, vitesses ou deltas cartésiens) plutôt que de sélectionner parmi un ensemble discret d'actions. La plupart des tâches de manipulation physique d'un robot nécessitent un contrôle continu, car un mouvement fluide et précis ne peut pas être représenté de manière adéquate par un menu d'actions fini. Les algorithmes RL profonds standard pour le contrôle continu incluent DDPG, TD3 et SAC ; pour l'apprentissage par imitation, le clonage comportemental et Politique de diffusion sont couramment utilisés dans les espaces d’action continue.

ContrôleApprentissage par renforcement

D

Augmentation des données (pour la robotique)

L'augmentation des données dans l'apprentissage des robots applique des transformations aléatoires aux observations de formation pour améliorer la robustesse des politiques sans collecter de démonstrations supplémentaires. Les augmentations d'image courantes incluent le recadrage aléatoire, la gigue des couleurs, le flou gaussien et la découpe. Des augmentations plus sophistiquées superposent des arrière-plans gênants, modifient les conditions d'éclairage ou injectent du bruit de capteur pour éviter un surajustement de caractéristiques visuelles spécifiques dans l'environnement de formation. Certaines approches augmentent également les actions, par exemple en ajoutant du bruit aux trajectoires communes pour apprendre à la politique à se remettre des perturbations. L'augmentation est particulièrement importante lorsque les données de formation sont coûteuses (chaque démonstration nécessite du temps d'opérateur humain).

EntraînementRobustesseDonnées

Degrés de liberté (DOF)

Les degrés de liberté décrivent le nombre de paramètres indépendants nécessaires pour spécifier la configuration d'un système mécanique. Un bras de robot doté de six articulations révolutionnaires possède 6 DOF, ce qui est suffisant pour positionner et orienter arbitrairement son effecteur final dans son espace de travail accessible (sauf singularités). Un bras 7-DOF ajoute une articulation redondante qui permet une optimisation de l'espace nul pour éviter les obstacles ou pour des poses de confort. Les bras humains ont environ 7 DOF au niveau de la chaîne épaule-coude-poignet, ce qui fait des robots 7-DOF un choix naturel pour la manipulation anthropomorphique. Les bases mobiles ajoutent 2 à 3 DOF ; les humanoïdes complets dépassent 30 DOF.

CinématiqueMatériel

Démonstration

Une démonstration (également appelée trajectoire ou épisode dans des contextes d'apprentissage par imitation) est une séquence enregistrée d'observations et d'actions fournies par un contrôleur humain ou expert qui illustre comment effectuer une tâche. Les démonstrations constituent la principale source de données pour le clonage comportemental et d’autres algorithmes d’apprentissage par imitation. Ils peuvent être récupérés via téléopération, enseignement kinesthésique, ou capture de mouvement. La qualité des données (mouvement fluide, exécution cohérente des tâches, couverture adéquate de l'espace d'état de la tâche) compte autant que la quantité pour la performance des politiques en aval. SVRC collecte des démonstrations de robots de qualité production via notre services de données.

DonnéesApprentissage par imitation

Politique de diffusion

Politique de diffusion, introduite par Chi et al. (2023), formule la génération d’actions de robot comme un processus de diffusion de débruitage – la même classe de modèles génératifs utilisée dans la génération d’images. Au moment de l'inférence, la politique affine de manière itérative un échantillon de bruit gaussien en une séquence d'actions conditionnées par l'observation actuelle à l'aide d'un réseau de scores appris (généralement un CNN ou un transformateur). Comparée au clonage comportemental déterministe, la politique de diffusion représente naturellement multimodal distributions d'actions (plusieurs façons valides d'effectuer une tâche) et obtient des résultats de pointe sur des tests de manipulation riches en contacts. Voir le article détaillé.

PolitiqueModèle GénératifApprentissage par imitation

Manipulation adroite

La manipulation adroite fait référence à des tâches de manipulation fines à plusieurs doigts qui exploitent toutes les capacités cinématiques et sensorielles d'une main robotique : saisie dans la main, roulement d'objets sur le bout des doigts, distribution de cartes, suture chirurgicale et tâches similaires. La dextérité nécessite un niveau élevéDOF des effecteurs terminaux (plus de 5 doigts, chacun avec plus de 3 articulations), une détection tactile dense et des politiques capables de raisonner sur une géométrie de contact complexe. L'apprentissage par renforcement formé à la simulation (par exemple, Dactyl d'OpenAI) et les récentes politiques basées sur la diffusion ont repoussé les limites, mais la manipulation adroite avec une fiabilité au niveau humain reste un problème de recherche ouvert.

ManipulationMatérielFrontière de la recherche

E

IA incarnée

L’IA incarnée fait référence aux systèmes d’intelligence artificielle qui perçoivent et agissent à travers un corps physique situé dans le monde réel, plutôt que d’opérer uniquement sur du texte ou des images de manière isolée. L’hypothèse de l’incarnation soutient que la véritable intelligence nécessite une base sensorimotrice – un apprentissage par interaction, et pas seulement une correspondance de modèles sur des ensembles de données statiques. En pratique, la recherche sur l'IA incorporée englobe l'apprentissage des robots, Modèles VLA, transfert sim-vers-réel et modèles de fondations physiques. Des sociétés comme Google DeepMind (série RT), Physical Intelligence (pi0) et NVIDIA (GR00T) sont les principaux moteurs industriels. Propre au SVRC plateforme de données est conçu pour les flux de travail de données d'IA incorporés.

Modèle de fondationIA physique

Effecteur final

L'effecteur final est le dispositif situé à l'extrémité distale d'un bras robotique qui interagit directement avec l'environnement. Il peut s'agir d'une pince à mâchoires parallèles, d'une ventouse, d'une main à plusieurs doigts, d'une torche de soudage, d'une buse de peinture ou de tout outil spécifique à une tâche. La pose de l'effecteur final – sa position et son orientation dans l'espace – est le principal résultat de contrôle de la plupart des politiques de manipulation. Le point central de l'outil (TCP) est le point de référence sur l'effecteur final utilisé pour le contrôle cartésien. Choisir le bon effecteur final est une décision de déploiement cruciale : les pinces optimisées pour une classe d'objets (par exemple, des boîtes rigides) peuvent échouer sur des objets souples ou irréguliers. Parcourir Options matérielles SVRC.

MatérielManipulation

Épisode

Un épisode est une tentative unique et complète d'accomplir une tâche, depuis l'état initial jusqu'à la réussite, l'échec ou l'expiration de la tâche. Dans l'apprentissage par renforcement, l'agent interagit avec l'environnement pendant un épisode, accumule des récompenses, puis l'environnement est réinitialisé. Dans l'apprentissage par imitation, chaque démonstration enregistrée constitue un épisode. Les épisodes constituent l'unité fondamentale des ensembles de données d'apprentissage des robots : un ensemble de données de 1 000 épisodes contient 1 000 tentatives de tâches avec des observations, des actions et des résultats associés. La durée de l'épisode, les conditions de réinitialisation et les critères de réussite doivent être définis avec précision pour garantir une collecte de données cohérente.

DonnéesApprentissage par renforcementApprentissage par imitation

Extrinsèques (caméra)

Les éléments extrinsèques de la caméra définissent la position et l'orientation (pose 6-DOF) d'une caméra par rapport à un cadre de référence - généralement la base du robot ou l'effecteur final. Associés aux paramètres intrinsèques (distance focale, point principal, distorsion de l'objectif), les extrinsèques permettent de projeter des points du monde 3D sur le plan image et, à l'inverse, de déplacer les détections 2D dans l'espace 3D. Un calibrage extrinsèque précis est essentiel pour les politiques visuomotrices qui doivent mapper les observations visuelles aux actions du robot dans un cadre de coordonnées cohérent. Les caméras œil dans la main (montées au poignet) nécessitent un réétalonnage lorsque l'effecteur final ou la caméra est remplacé.

PerceptionÉtalonnage

F

Capteur de couple de force (Capteur FT)

Un capteur force-couple mesure la clé à six axes (trois forces Fx, Fy, Fz et trois couples Tx, Ty, Tz) appliquée au poignet ou à l'effecteur final d'un robot. Les capteurs FT sont essentiels pour les tâches d'assemblage et riches en contacts où un contrôle de position pur manquerait de contacts ou appliquerait une force excessive. Ils permettent des boucles de contrôle d'impédance et d'admission, détectent les glissements et les collisions et fournissent de riches entrées sensorielles pour les politiques apprises. Les capteurs FT de haute précision d'ATI et Robotiq sont la norme dans les laboratoires de recherche ; Les capteurs MEMS à faible coût sont de plus en plus viables pour les déploiements en production.

MatérielDétectionContrôle

Modèle de fondation (robotique)

Un modèle de base est un vaste réseau neuronal pré-entraîné sur des données larges et diverses qui peut être adapté à de nombreuses tâches en aval via un réglage précis ou des invites. En robotique, les modèles de base sont généralement de grands modèles de langage de vision (VLM) étendus avec des sorties d'action pour former VLA, ou de grandes politiques visuomotrices formées sur des ensembles de données inter-incarnations. Les exemples incluent RT-2 (Google DeepMind), OpenVLA, Octo et pi0 (Physical Intelligence). Les modèles de base pour la robotique sont attrayants car ils peuvent tirer parti de la pré-formation à l'échelle d'Internet, prendre en charge le conditionnement linguistique et généraliser les tâches sans avoir à repenser chaque tâche à partir de zéro. Voir Catalogue de modèles SVRC.

VLAPré-formationGénéralisation

Cinématique avant (FK)

La cinématique avant calcule la pose de l'effecteur terminal dans l'espace cartésien en fonction des angles d'articulation du robot (ou des déplacements pour les articulations prismatiques). Pour un robot à chaîne série, FK est calculé en multipliant une séquence de matrices de transformation homogènes (une par articulation), généralement dérivées des paramètres Denavit-Hartenberg (DH) ou d'une description URDF. FK a toujours une solution unique — étant donné les angles d'articulation, il y a exactement une pose d'effecteur terminal — contrairement au problème inverse (IK), qui peut avoir zéro, une ou plusieurs solutions. FK est utilisé dans la simulation, la vérification des collisions, la visualisation et la surveillance de l'état des robots en temps réel.

CinématiqueContrôle

G

Généralisation (politique des robots)

La généralisation mesure l'efficacité d'une stratégie de robot sur des objets, des scènes ou des tâches qu'elle n'a pas vus pendant la formation. C’est le défi central de l’apprentissage des robots : une politique qui mémorise les démonstrations de formation mais échoue sur de nouvelles instances n’a aucune valeur pratique. Les chercheurs distinguent la généralisation d'objets (nouvelles instances de catégories connues), la généralisation de catégories (classes d'objets entièrement nouvelles) et la généralisation de tâches (nouvelles formulations d'instructions ou configurations d'objectifs). L'amélioration de la généralisation nécessite généralement des données de formation plus volumineuses et plus diversifiées, une co-formation avec des données Internet, une randomisation de domaine dans la simulation et modèle de fondation priors.

PolitiqueFrontière de la recherche

Pose de préhension

Une pose de préhension spécifie la position 6-DOF et l'orientation d'une main de robot ou d'une pince par rapport à un objet de telle sorte que la pince puisse fermer et maintenir l'objet en toute sécurité. L'estimation de la pose de préhension est généralement effectuée à partir de données de profondeur ou de nuages de points à l'aide de méthodes analytiques (par exemple, échantillonnage par préhension antipodale) ou de détecteurs appris tels que GraspNet-1Billion, GQ-CNN ou AnyGrasp. Une pose de préhension valide doit être accessible par le robot, sans collision pendant l'approche et stable sous les charges de tâche attendues. Les mesures de qualité de préhension incluent la force de fermeture, la stabilité du contact et la résistance à la clé spécifique à la tâche.

ManipulationPerception

Pince

Une pince est la classe de robot la plus courante effecteur final, conçu pour saisir et tenir des objets. Les pinces à mâchoires parallèles sont les plus simples et les plus utilisées, avec deux doigts opposés entraînés par un moteur ou un système pneumatique. Les pinces à ventouse utilisent le vide pour saisir des surfaces lisses et planes. Les pinces souples utilisent des matériaux souples (silicone, tissu) pour s'adapter aux objets irréguliers. Les mains à plusieurs doigts (3 à 5 doigts) permettent manipulation adroite mais ils sont plus difficiles à contrôler et plus coûteux. La sélection des pinces dépend essentiellement de la géométrie de l'objet, des propriétés de la surface, de la charge utile requise et de la nécessité ou non d'une réorientation manuelle.

MatérielEffecteur final

H

HDF5 (Format de données hiérarchique v5)

HDF5 est un format de fichier binaire et une bibliothèque permettant de stocker et d'accéder efficacement à des ensembles de données scientifiques volumineux et structurés. En robotique, HDF5 est le conteneur standard pour les ensembles de données de démonstration de robots : un seul fichier stocke les images de caméra synchronisées, les angles d'articulation, les états des pinces, les mesures de force et les métadonnées dans des groupes hiérarchiques, avec des E/S fragmentées permettant un accès aléatoire rapide pendant l'entraînement. Les écosystèmes LeRobot et ALOHA utilisent tous deux HDF5 de manière native. L'alternative Zar Le format offre un stockage fragmenté natif dans le cloud avec une meilleure prise en charge des écritures simultanées. Les SVRC pipelines de collecte de données sortie HDF5 par défaut.

DonnéesStockageIngénierie

Robot humanoïde

Un robot humanoïde a une structure corporelle globalement similaire à celle d’un humain – généralement un torse, deux jambes, deux bras et une tête – lui permettant d’opérer dans des environnements conçus pour les humains et d’utiliser des outils humains. Les humanoïdes notables incluent Boston Dynamics Atlas, Agility Robotics Digit, Figure 01 et Tesla Optimus. Les humanoïdes présentent des défis d'ingénierie extrêmes : la locomotion bipède nécessite un contrôle de l'équilibre en temps réel et une coordination de plus de 30 DOF pour les tâches de loco-manipulation. contrôle de tout le corps. Malgré cette complexité, les humanoïdes attirent d’énormes investissements car leur forme se généralise sur divers lieux de travail sans modification de l’infrastructure.

MatérielLocomotionBimanuel

Interaction homme-robot (HRI)

L'interaction homme-robot est un domaine interdisciplinaire qui étudie la manière dont les personnes et les robots communiquent, collaborent et partagent l'espace physique de manière efficace et sûre. Les recherches de HRI couvrent les normes de sécurité (ISO/TS 15066 pour les robots collaboratifs), la conception d'interfaces utilisateur pour la téléopération, l'enseignement en langage naturel, les mouvements lisibles du robot (rendre l'intention du robot lisible aux spectateurs) et la robotique sociale (utilisant le regard, les gestes et la parole pour la communication non verbale). Dans les déploiements industriels de cobots, HRI détermine directement si les travailleurs acceptent et utilisent efficacement les robots à leurs côtés. Une bonne conception HRI réduit les accidents, améliore le débit et réduit la charge de formation du côté humain.

SécuritéCollaboration

I

Apprentissage par imitation (IL)

L'apprentissage par imitation est une famille de méthodes d'apprentissage automatique qui entraînent les politiques des robots à partir de démonstrations humaines plutôt que de fonctions de récompense conçues. La forme la plus simple est clonage comportemental (régression supervisée sur des couples état-action). Des variantes plus avancées – DAgger (correction itérative), GAIL (imitation contradictoire) et IRL (récupération d'une fonction de récompense) – résolvent les problèmes de changement de distribution et de spécification de récompense qui affligent la Colombie-Britannique pure. L'IL est devenue le paradigme dominant pour l'enseignement de la manipulation adroite, car l'ingénierie de la récompense pour une manipulation complexe est extrêmement difficile, alors que la collecte de démonstrations humaines est réalisable à grande échelle via téléopération. Voir le article approfondi complet.

Concept de basePolitiqueDonnées

Cinématique inverse (EST)

La cinématique inverse résout les angles d'articulation qui placent l'effecteur final d'un robot dans une pose cartésienne souhaitée. Contrairement à cinématique avant, IK peut avoir zéro, une ou une infinité de solutions en fonction de la structure cinématique du robot et de la pose cible. Des solveurs CI analytiques existent pour les configurations standard à 6 degrés de liberté ; les méthodes numériques (pseudo-inverse jacobien, Newton-Raphson, basées sur l'optimisation) gèrent des géométries arbitraires et des robots redondants. IK est utilisé dans la planification des mouvements, la cartographie des téléopérations (conversion de la pose de la main de l'opérateur en commandes conjointes) et tout contrôleur d'espace cartésien. Les bibliothèques comme KDL, IKFast et track-ik sont couramment utilisées dans les environnements ROS.

CinématiqueContrôlePlanification

Isaac Sim

NVIDIA Isaac Sim est une plate-forme de simulation robotique construite sur le framework Omniverse USD, offrant une physique haute fidélité (via PhysX 5), un rendu photoréaliste (via le traçage de chemin RTX) et une intégration ROS 2 prête à l'emploi. Il est spécialement conçu pour générer des données de formation synthétiques, tester les politiques des robots et effectuer des recherches sur le transfert de la simulation au réel. Isaac Sim prend en charge la randomisation de domaine des textures, de l'éclairage et des poses d'objets à grande échelle, et s'intègre au cadre d'apprentissage par renforcement Isaac Lab de NVIDIA. Sa physique accélérée par GPU permet de former des politiques RL avec des milliers d'instances de simulation parallèles. Apprenez-en davantage sur Page de ressources du SVRC Isaac Sim.

SimulationDonnées synthétiquesOutil

J

Espace commun (Espace de configuration)

L'espace commun (également appelé espace de configuration ou espace C) est l'espace de tous les vecteurs d'angle commun possibles pour un robot. Un point dans l'espace commun spécifie de manière unique la configuration complète du robot. Les algorithmes de planification de mouvement tels que RRT et PRM fonctionnent dans l'espace commun pour trouver des chemins sans collision entre les configurations, car la vérification des collisions y est plus simple que dans l'espace cartésien. De nombreuses politiques de RL génèrent des positions ou des vitesses communes directement dans l'espace commun, tandis que les politiques d'apprentissage par imitation opèrent souvent dans Espace cartésien pour un alignement humain-démonstrateur plus facile. Voir le article sur l'espace commun.

CinématiquePlanification

Couple commun

Le couple articulaire est la force de rotation appliquée par un moteur au niveau d'une articulation de robot, mesurée en Newton-mètres (Nm). Les robots à couple contrôlé (par opposition à ceux à contrôle de position) peuvent réguler directement les forces de contact, permettant ainsi des comportements conformes tels que la flexion lorsqu'ils sont poussés et le contrôle précis des forces d'assemblage. La détection du couple au niveau de chaque articulation est une caractéristique clé des robots collaboratifs (cobots) comme Franka Panda, la série Universal Robots UR et Kuka iiwa, permettant une collaboration homme-robot sûre et un contrôle conforme de l'ensemble du corps. Les politiques d'apprentissage qui génèrent des couples articulaires plutôt que des positions nécessitent une formation minutieuse pour éviter les oscillations instables.

ContrôleMatérielForcer

K

Chaîne cinématique

Une chaîne cinématique est une série de maillons rigides reliés par des articulations qui forment ensemble la structure mécanique d'un robot. Une chaîne ouverte (bras de robot en série) a une extrémité libre (l'effecteur final), ce qui rend FK simple. Une chaîne fermée (robot parallèle, hexapode) comporte plusieurs boucles qui offrent une rigidité et une vitesse plus élevées mais nécessitent une cinématique plus complexe. La chaîne cinématique détermine l'espace de travail du robot, les singularités et la matrice jacobienne utilisée pour le contrôle cartésien. Les fichiers URDF décrivent les chaînes cinématiques comme un arbre de liens et d'articulations pour les logiciels de simulation et de contrôle.

CinématiqueMécanique

Enseignement kinesthésique

L'enseignement kinesthésique (également appelé guidage direct ou guidage direct) est une méthode de programmation de robot dans laquelle un humain saisit physiquement le bras du robot et le déplace sur la trajectoire de mouvement souhaitée pendant que le robot enregistre la trajectoire. Cela nécessite que le robot puisse être rétropiloté (faible friction et souplesse des articulations) afin que l'opérateur puisse le déplacer avec un minimum d'effort. L'enseignement kinesthésique est intuitif et ne nécessite aucun matériel externe, mais il est limité aux tâches que l'opérateur peut physiquement démontrer, et il ne produit que des données proprioceptives (pas d'observations par caméra au poignet), à moins que les caméras ne soient co-enregistrées. Le mode de compensation de la gravité sur les robots à contrôle de couple comme le Franka Panda rend l'enseignement kinesthésique pratique.

Collecte de donnéesApprentissage par imitation

L

Politique conditionnée par la langue

Une politique conditionnée par le langage prend une instruction en langage naturel (par exemple, « prenez le gobelet rouge et placez-la sur le plateau ») comme entrée supplémentaire aux côtés des observations visuelles, permettant à un réseau de politique unique d'effectuer plusieurs tâches sélectionnées au moment de l'exécution sans recyclage. Le conditionnement du langage est généralement implémenté en codant des instructions avec un modèle de langage pré-entraîné (CLIP, T5, PaLM) et en fusionnant l'intégration résultante avec des fonctionnalités d'image. Modèles VLA tels que RT-2, OpenVLA et pi0 sont conditionnés par le langage par leur conception. Cette approche réduit le besoin de former des politiques distinctes par tâche et prend en charge la généralisation sans tir à de nouvelles formulations d'instructions.

VLAModèle de fondationGénéralisation

Espace latent

Un espace latent est une représentation compressée de dimension inférieure des données apprises par un réseau neuronal – la sortie d'un encodeur qui capture les caractéristiques les plus pertinentes d'une observation. Dans l'apprentissage robotique, les espaces latents sont utilisés dans les VAE (auto-encodeurs variationnels) pour apprendre des représentations structurées de scènes visuelles, dans les modèles du monde pour prédire les états futurs et dans les politiques basées sur les CVAE (comme ACT) pour coder les distributions d'actions multimodales. Un espace latent bien structuré rapproche les observations sémantiquement similaires, permettant l'interpolation, la planification et l'augmentation des données dans le domaine latent plutôt que dans l'espace brut des pixels.

Apprentissage de la représentationPolitique

LeRobot

LeRobot est la bibliothèque open source de Hugging Face pour l'apprentissage des robots, fournissant des implémentations standardisées d'algorithmes d'apprentissage par imitation (ACT, Politique de diffusion, TDMPC), un format d'ensemble de données unifié, des outils de visualisation et des poids de modèle pré-entraînés. Il vise à réduire les barrières à l’entrée pour la recherche sur l’apprentissage des robots en fournissant un cadre unique et cohérent analogue à ce que Transformers a fait pour la PNL. LeRobot s'intègre au Hugging Face Hub pour le partage d'ensembles de données et de modèles, et prend en charge les environnements de robots simulés (gymnase-robotique, MuJoCo) et physiques. Le kit robot compagnon SO-100 à faible coût a été lancé en même temps.

OutilSource ouverteApprentissage par imitation

Ensemble de données LeRobot HF

Le format d'ensemble de données LeRobot est un schéma standardisé pour les données de démonstration de robots hébergées sur Hugging Face Hub. Chaque ensemble de données se compose de fichiers Parquet (pour les séries temporelles scalaires : positions communes, actions, récompenses, drapeaux terminés) ainsi que de morceaux vidéo MP4 compressés pour les flux de caméras, tous indexés par épisode et image. UN meta/info.json Le fichier décrit les noms des caméras, le type de robot, les images par seconde et les statistiques de données utilisées pour la normalisation. Ce format permet à n'importe quel algorithme compatible LeRobot de charger n'importe quel ensemble de données publié avec une seule ligne de code, permettant ainsi une expérimentation rapide entre ensembles de données. Des dizaines de jeux de données de manipulation et de manipulation mobile sont déjà publiés dans ce format.

DonnéesStandardSource ouverte

M

Manipulation

La manipulation fait référence à une interaction physique intentionnelle avec des objets : choisir, placer, assembler, plier, insérer, verser et effectuer des tâches similaires. La manipulation des robots est l'un des domaines de recherche les plus actifs de l'IA incarnée, car même les tâches quotidiennes simples (charger un lave-vaisselle, ouvrir un emballage) nécessitent une perception riche, un contrôle précis du moteur et une planification robuste des préhensions. La difficulté de manipulation va du simple placement avec des objets connus dans des configurations fixes, en passant par un assemblage riche en contacts, jusqu'à une réorientation entièrement adroite en main avec de nouveaux objets dans des scènes non structurées. Les SVRC services de données se spécialisent dans la collecte de démonstrations de manipulation pour la formation et l'évaluation.

Concept de baseTâche

Déplacez-le

MoveIt est le framework open source de planification de mouvement pour les bras de robot le plus largement utilisé, développé à l'origine chez Willow Garage et maintenant maintenu par PickNik Robotics. MoveIt 2 fonctionne sur ROS 2 et fournit des planificateurs (OMPL, CHOMP, PILZ), une planification de trajectoire cartésienne, une vérification des collisions par rapport à la scène de planification de MoveIt, des plugins cinématiques (KDL, IKFast, TracIK) et une intégration de planification de maîtrise. Il s'agit de la couche middleware standard entre une politique d'apprentissage du robot (qui génère les poses d'effecteur final ou les points de cheminement souhaités) et le contrôleur commun de bas niveau qui exécute des trajectoires fluides et sans collision sur le robot physique.

OutilPlanificationROS

Apprentissage multi-tâches

L'apprentissage multitâche forme une politique unique sur les démonstrations de plusieurs tâches distinctes simultanément, dans l'espoir que les représentations partagées apprises à travers les tâches améliorent les performances de chaque tâche individuelle et permettent la généralisation à de nouvelles tâches. En robotique, cela signifie souvent une formation sur des centaines de tâches avec des objets, des objectifs et des environnements variés. Le principal défi consiste à équilibrer les contributions graduelles des différentes tâches (interférence de gradient) et à garantir que la politique puisse faire la distinction entre les tâches au moment de l'inférence – généralement via un conditionnement linguistique ou des identifiants de tâches ponctuelles. Les politiques multitâches sont une condition préalable aux assistants robotiques à usage général.

PolitiqueGénéralisationEntraînement

N

Politique neuronale

Une politique neuronale est une politique de contrôle du robot paramétrée par un réseau neuronal qui mappe les observations (images, proprioception, langage) directement aux actions (positions articulaires, deltas cartésiens, commandes de préhension). Contrairement aux pipelines de planification de mouvement classiques, les politiques neuronales apprennent le mappage de bout en bout à partir des données sans représentations intermédiaires conçues à la main. Les politiques neuronales modernes utilisent des codeurs convolutifs pour la vision, des transformateurs pour la modélisation de séquences et des architectures telles que ACT, Diffusion Policy ou des backbones VLA pour la génération d'actions. Une propriété clé des politiques neuronales est qu’elles peuvent être entraînées à partir de démonstrations ou de signaux de récompense, ce qui leur permet de gérer des tâches trop complexes pour des contrôleurs codés manuellement.

PolitiqueApprentissage profond

Manipulation non préhensile

La manipulation non préhensile fait référence à la manipulation d'objets sans les saisir, en utilisant plutôt des stratégies de poussée, de roulement, de pivotement, de retournement, d'inclinaison ou d'autres stratégies de contact qui exploitent la gravité et la friction de surface. Par exemple, pousser une boîte sur une table pour la positionner, ou pousser un piquet vers le haut avant de le saisir. Les stratégies non préhensiles peuvent déplacer des objets dans des configurations préhensibles, repositionner des éléments trop volumineux pour être saisis ou travailler dans des scènes encombrées où une approche de préhension est impossible. La planification d'actions non préhensiles nécessite la modélisation de la mécanique des objets quasi-statiques ou dynamiques et de la physique des contacts, ce qui en fait un sujet de recherche actif à l'intersection de la manipulation et de la planification du mouvement.

ManipulationPlanification

O

Espace d'observation

L'espace d'observation définit toutes les entrées de capteur disponibles pour la politique du robot à chaque pas de temps. Les modalités courantes incluent les images RVB provenant de caméras de poignet ou aériennes, les cartes de profondeur provenant de capteurs à lumière structurée ou stéréo, l'état proprioceptif (positions des articulations, vitesses, couples), l'état de la pince, la pose de l'effecteur final, les lectures tactiles et les entrées de spécification de tâche telles que les intégrations de langage ou les images d'objectifs. La conception de l’espace d’observation affecte profondément les performances et la généralisation des politiques : des observations plus riches contiennent plus d’informations mais augmentent la complexité du modèle, le temps de formation et le risque de surajustement à des caractéristiques visuelles non pertinentes.

PerceptionPolitique

Contrôle en boucle ouverte

Le contrôle en boucle ouverte exécute une trajectoire pré-planifiée sans utiliser le retour des capteurs pendant l'exécution : le robot suit simplement les positions ou les vitesses commandées, indépendamment de ce qui se passe réellement. Ceci est approprié pour les tâches hautement répétables dans des environnements contrôlés, telles que l'usinage CNC ou le prélèvement et le placement sur un convoyeur fixe. Le contrôle en boucle ouverte est rapide et simple, mais échoue lorsque des perturbations se produisent, car aucune mesure corrective n'est prise. En revanche, le contrôle en boucle fermée (retour d'information) compare en permanence l'état réel à l'état souhaité et applique des commandes correctives, ce qui le rend beaucoup plus robuste pour l'apprentissage des robots dans des environnements variables.

Contrôle

Ouvrir l'incarnation X

Open X-Embodiment (OXE) est un ensemble de données de démonstration de robots à grande échelle assemblé par Google DeepMind et 33 instituts de recherche, comprenant plus d'un million d'épisodes de robots provenant de 22 incarnations de robots différentes et plus de 527 compétences. Il a été créé pour permettre co-formation à travers les modes de réalisation – l’hypothèse étant que l’expérience diversifiée des robots enseigne des représentations de manipulation plus riches que les seuls ensembles de données d’un seul robot. RT-X, le modèle formé sur OXE, a démontré un transfert positif entre les modes de réalisation et des performances améliorées sur les tâches suspendues par rapport aux références à un seul mode de réalisation. Les données OXE sont accessibles au public et ont catalysé une vague de recherche en robotique inter-incarnations.

Ensemble de donnéesModèle de fondationMulti-mode de réalisation

P

Charge utile

La charge utile est la masse maximale (y compris le poids de tout effecteur final et de tout outillage) qu'un bras de robot peut transporter tout en conservant sa précision de position nominale et ses performances dynamiques. Les spécifications de charge utile vont généralement de moins de 1 kg pour les robots de recherche collaboratifs (WidowX 250 : 250 g) à plus de 500 kg pour les grandes armes industrielles. Il est important de noter que la charge utile nominale est généralement indiquée à pleine portée avec le bras complètement étendu ; à une distance plus rapprochée et dans des postures plus favorables, les robots peuvent souvent gérer beaucoup plus de choses. Le dépassement des limites de charge utile dégrade la précision, accélère l'usure et peut déclencher des défauts de sécurité ou des dommages physiques. Les SVRC catalogue de matériel répertorie la charge utile pour chaque robot.

MatérielSpécifications

Politique (robot)

Dans l'apprentissage robotique, une politique (notée π) est une fonction qui mappe les observations aux actions : π(o) → a. La politique est le « cerveau » appris du robot qui détermine quoi faire à chaque pas de temps en fonction de ce qu’il perçoit. Les politiques peuvent être représentées sous forme de réseaux de neurones (politiques neuronales), d'arbres de décision, de processus gaussiens ou de tables de recherche. Ils peuvent être déterministes (une action par observation) ou stochastiques (une distribution sur les actions). La qualité des politiques est mesurée par le taux de réussite des tâches dans diverses conditions, et pas seulement par les démonstrations de formation. Le principal défi de l’apprentissage robotique réside dans les politiques de formation qui se généralisent de manière fiable au-delà de leur distribution de formation.

Concept de baseApprentissage profond

Déploiement de la politique

Un déploiement de politique est un épisode unique d'exécution d'une politique formée sur le robot (ou en simulation) depuis un état initial jusqu'à l'achèvement de la tâche ou l'expiration du délai. Les déploiements sont utilisés pour évaluer les performances des politiques, collecter de nouvelles données pour une formation ultérieure (comme dans le réglage précis de DAgger ou RL) et déboguer les modes d'échec. Le nombre de déploiements nécessaires pour une estimation fiable des performances dépend de la variabilité des tâches : les tâches à forte variance peuvent nécessiter plus de 50 déploiements pour obtenir une estimation stable du taux de réussite. Dans la recherche, les déploiements sont souvent classés par condition initiale (objets/scènes en distribution ou hors distribution) pour caractériser la généralisation.

ÉvaluationPolitique

Pré-formation

La pré-formation est la phase de développement du modèle au cours de laquelle un réseau de neurones est formé sur un ensemble de données vaste et diversifié avant un réglage précis spécifique à une tâche. Pour les modèles de base en robotique, le pré-entraînement peut avoir lieu sur des données de langage de vision à l'échelle Internet (images, vidéo, texte), des ensembles de données de robots inter-incarnations (Open X-Embodiment), des données de simulation synthétiques ou une combinaison. Le modèle pré-entraîné apprend de riches représentations générales d'objets, d'actions et de concepts qui sont transférés aux tâches robotiques en aval avec beaucoup moins de démonstrations qu'une formation à partir de zéro. La pré-formation est le mécanisme à l'origine du succès des modèles VLA tels que le RT-2, qui bénéficie à la fois d'une pré-formation robotique et à l'échelle Internet.

Modèle de fondationEntraînementApprentissage par transfert

Q

Fonction Q (Fonction Action-Valeur)

La fonction Q Q(s, a) estime la récompense cumulée actualisée attendue qu'un agent recevra en exécutant l'action a dans l'état s, puis en suivant une politique donnée par la suite. Les fonctions Q sont au cœur des algorithmes d'apprentissage par renforcement tels que DQN (actions discrètes) et SAC, TD3 et DDPG (actions continues). Dans le robot RL, l'apprentissage de fonctions Q précises pour des tâches de manipulation à long horizon est un défi car les récompenses sont rares et l'espace état-action est de grande dimension. Des travaux récents en RL hors ligne (IQL, CQL) utilisent des fonctions Q pour extraire des politiques d'ensembles de données fixes sans interaction en ligne, comblant ainsi le fossé entre l'apprentissage par imitation et RL.

Apprentissage par renforcementFonction de valeur

Manipulation quasi-statique

La manipulation quasi-statique suppose que le mouvement est suffisamment lent pour que les forces d'inertie et dynamiques soient négligeables — le système est effectivement en équilibre statique à chaque instant. Cette simplification permet une modélisation mécanique des contacts maniable pour planifier les actions de poussée, de glissement, de pivotement et de reprise en main. De nombreux tests de manipulation de robots (y compris la plupart des tâches de sélection et de placement sur table) fonctionnent en régime quasi statique. Lorsque les tâches impliquent des lancers rapides, des captures dynamiques ou un assemblage à grande vitesse, les hypothèses quasi-statiques s'effondrent et une dynamique complète de corps rigide avec simulation de contact (par exemple, MuJoCo, Isaac Sim) est requise.

ManipulationMécanique

R

Transfert réel vers SIM

Transfert réel vers sim (le complément de sim-vers-réel) implique de construire ou de calibrer une simulation pour qu’elle corresponde le plus possible au monde réel – essentiellement en créant un jumeau numérique des conditions réelles. Ceci est utilisé pour rejouer des cas de défaillance réels en simulation, générer des données de formation synthétiques supplémentaires adaptées aux caractéristiques réelles des capteurs et tester les mises à jour des politiques en toute sécurité avant le déploiement. Les techniques incluent la reconstruction photogrammétrique de scènes, l'identification des paramètres physiques (identification du système) et les méthodes de rendu neuronal (NeRF, 3D Gaussian Splatting) pour correspondre à l'apparence de la caméra. Des pipelines précis de simulation réelle réduisent considérablement le nombre d’expériences physiques nécessaires à l’itération des politiques.

SimulationJumeau numériqueDonnées

Atteindre

La portée est la distance maximale entre la base d'un bras de robot et tout point auquel son effecteur final peut accéder dans son espace de travail. Pour un bras série, la portée maximale est égale à la somme de toutes les longueurs de liaison. La portée effective dans un déploiement est plus petite, ce qui tient compte des limites communes, de l'évitement des auto-collisions et de la nécessité d'approcher les objets sous plusieurs orientations. Reach détermine quelles configurations de postes de travail et quels placements d'objets sont réalisables. Lors de la sélection des robots pour une tâche, les ingénieurs doivent confirmer que l'espace de travail requis (y compris toutes les directions d'approche pour la préhension) se situe dans l'enveloppe accessible du robot avec une précision acceptable.

MatérielSpécificationsCinématique

Tampon de relecture

Un tampon de relecture (ou mémoire de relecture d'expérience) est un ensemble de données de transitions passées (état, action, récompense, état suivant, terminé) collectées par un agent RL lors d'une interaction avec l'environnement. À chaque étape de formation, des mini-lots aléatoires sont échantillonnés dans le tampon pour entraîner la fonction ou la politique de valeur, brisant ainsi les corrélations temporelles qui déstabiliseraient les mises à jour du gradient. Dans le RL hors ligne et l'apprentissage robotique, le tampon de relecture est remplacé par un ensemble de données fixe de démonstrations humaines ou de déploiements précédemment collectés. L'expérience priorisée rejoue l'échantillonnage des poids par erreur de différence temporelle pour concentrer la formation sur les transitions informatives.

Apprentissage par renforcementDonnées

Fonction de récompense

La fonction de récompense définit l'objectif d'apprentissage pour un agent d'apprentissage par renforcement : elle attribue un signal de récompense scalaire r(s, a, s') à chaque transition (état, action, état suivant), indiquant à l'agent à quel point ses actions sont bonnes ou mauvaises. La conception des fonctions de récompense est l’une des parties les plus difficiles de l’application du RL à la robotique : les récompenses rares (1 en cas de réussite, 0 sinon) sont claires mais conduisent à un apprentissage lent ; des récompenses denses (par exemple, une distance négative jusqu'au but) guident l'apprentissage mais peuvent être jouées de manière inattendue (piratage de récompense). Les alternatives incluent l'apprentissage par récompense à partir de démonstrations (IRL, RLHF), des mesures de simulation spécifiques à des tâches et des modèles de préférences apprises. L’apprentissage par imitation contourne entièrement le problème de conception des récompenses en apprenant directement à partir des démonstrations.

Apprentissage par renforcementConcept de base

S

Transfert Sim-vers-Réel

Le transfert de simulation à réalité est le processus de formation d'une politique de robot entièrement ou principalement en simulation, puis de son déploiement sur un robot physique, dans le but que la politique fonctionne sans (ou avec un minimum) de données supplémentaires du monde réel. Le principal défi est le écart de réalité — différences de fidélité physique, d'apparence visuelle, de bruit des capteurs et de dynamique non modélisée entre la simulation et le monde réel. Les principales techniques d'atténuation incluent la randomisation du domaine (randomisation des paramètres de simulation pendant la formation), l'identification du système (calibrage de la simulation pour correspondre au matériel réel) et le réglage fin adaptatif sur de petites quantités de données réelles. Voir le article détaillé.

Apprentissage par transfertSimulationDéploiement

Espace d'état

L'espace d'état est l'ensemble complet des configurations dans lesquelles un robot et son environnement peuvent se trouver. Dans RL, l'état de Markov code toutes les informations nécessaires pour prédire les récompenses futures et les transitions d'état - idéalement une description complète du monde. En pratique, l’agent n’a accès qu’à des observations partielles (images, angles articulaires) qui peuvent ne pas capturer complètement l’état (par exemple, objets occlus, paramètres physiques inconnus). Concevoir un espace d'observation qui se rapproche bien de l'état de Markov tout en restant exploitable informatiquement est un défi clé dans la conception de systèmes d'apprentissage robotique.

Apprentissage par renforcementContrôle

Robotique chirurgicale

La robotique chirurgicale applique des systèmes robotisés aux procédures médicales, notamment via la plateforme da Vinci d'Intuitive Surgical pour la chirurgie laparoscopique mini-invasive. Les robots chirurgicaux assurent une mise à l'échelle des mouvements (traduisant les mouvements importants de l'opérateur en mouvements d'instruments submillimétriques), une filtration des tremblements et une visualisation améliorée à l'intérieur du patient. Les recherches émergentes explorent les sous-tâches chirurgicales autonomes (sutures, rétraction des tissus), le guidage assisté par l'IA et la téléchirurgie sur des liaisons 5G à faible latence. L'approbation réglementaire (FDA 510(k) ou PMA pour les États-Unis) ajoute une charge de validation substantielle. La robotique chirurgicale se situe à l'intersection de téléopération, HRI, et manipulation riche en contacts.

MédicaleTéléopérationApplication

T

Apprentissage paramétré par les tâches

L'apprentissage paramétré par les tâches code les démonstrations relatives à plusieurs cadres de coordonnées ou paramètres de tâche (par exemple, la pose de l'objet, un emplacement cible, un cadre d'obstacle) plutôt que dans un cadre mondial fixe. Lors de l'exécution, la politique s'adapte automatiquement aux nouvelles configurations d'objet et de cible sans recyclage, car elle a appris le mouvement par rapport aux références pertinentes pour la tâche. Les modèles de mélange gaussien paramétrés par tâche (TP-GMM) et les primitives de mouvement kernelisées sont des implémentations classiques. Cette approche fournit une forte généralisation géométrique pour les tâches structurées de sélection et de placement, même si elle nécessite que les cadres de tâches soient identifiés et suivis au moment de l'exécution.

Apprentissage par imitationGénéralisationPolitique

Téléopération

La téléopération est le contrôle à distance d'un robot par un opérateur humain, utilisé à la fois pour l'exécution directe de tâches (robots chirurgicaux, robotique spatiale, déminage) et comme méthode principale pour collecter des démonstrations d'apprentissage par imitation de haute qualité. Dans l'apprentissage des robots, une configuration courante utilise une architecture leader-suiveur : l'opérateur déplace un bras leader léger et le robot (suiveur) suit le leader en temps réel. Les systèmes de téléopération basés sur la réalité virtuelle (utilisant le suivi manuel ou des contrôleurs) sont de plus en plus populaires car ils sont plus ergonomiques et permettent un débit de données plus élevé. SVRC propose une téléopération professionnelle services de collecte de données pour les équipes d'apprentissage des robots d'entreprise.

Collecte de donnéesApprentissage par imitationMatériel

Trajectoire

Une trajectoire est une séquence paramétrée dans le temps d'états du robot (angles d'articulation ou poses cartésiennes) qui décrit comment le robot se déplace d'une configuration de départ à un objectif. Les trajectoires peuvent être générées par des planificateurs de mouvement (planification d'un chemin sans collision puis paramétrage temporel pour une exécution fluide), par enregistrement de téléopération (capture du mouvement de l'opérateur à une fréquence fixe) ou prédites directement par une politique neuronale. La fluidité de la trajectoire et la continuité de la vitesse sont importantes pour la sécurité physique du robot : des discontinuités brusques provoquent des contraintes mécaniques et peuvent déclencher des arrêts de sécurité. Les représentations de trajectoire incluent des splines, des primitives de mouvement dynamique (DMP) et des séquences de points de cheminement discrets.

PlanificationContrôleDonnées

Apprentissage par transfert

L'apprentissage par transfert en robotique consiste à prendre un modèle pré-entraîné sur un domaine (par exemple, données de langage de vision Internet, simulation ou un autre robot) et à l'adapter à une tâche cible ou à un robot avec des données supplémentaires limitées. Le réglage fin des dernières couches d'un squelette pré-entraîné sur les données de démonstration du robot est l'approche la plus courante ; un réglage fin complet de tous les poids est utilisé lorsque suffisamment de données sur le robot sont disponibles. L'apprentissage par transfert est le mécanisme qui permet modèles de fondation pratique pour la robotique – l’alternative consistant à se former à partir de zéro sur les seules données du robot nécessiterait des millions de démonstrations. Voir aussi pré-formation, transfert sim-vers-réel.

Modèle de fondationEntraînement

U

URDF (Format de description de robot unifié)

URDF est un format de fichier basé sur XML qui décrit les propriétés cinématiques et dynamiques d'un robot : liens (corps rigides avec masse, inertie et maillages visuels/collision) et articulations (les connexions entre les liens, avec type, axe, limites et paramètres d'amortissement). URDF est le format standard de description de robot dans ROS et est pris en charge par toutes les principales plateformes de simulation (Isaac Sim, MuJoCo, Gazebo, PyBullet). Il permet de charger la cinématique du robot dans des planificateurs de mouvements comme MoveIt, de visualiser le robot dans RViz et d'instancier des modèles de simulation physique. XACRO (langage macro XML) est couramment utilisé pour paramétrer et modulariser les fichiers URDF pour les robots complexes. OpenArm et la plupart du matériel SVRC ont des modèles URDF accessibles au public.

OutilStandardSimulation

V

VLA (Modèle Vision-Langage-Action)

Un modèle Vision-Langage-Action est un réseau neuronal qui traite conjointement les observations visuelles (images RVB), les instructions en langage naturel et la proprioception du robot pour produire des résultats d'action. Les VLA étendent les grands modèles de langage de vision (VLM tels que PaLM-E, LLaVA ou Gemini) en ajoutant une tête d'action - entraînant le modèle à générer les positions articulaires du robot ou les deltas des effecteurs finaux parallèlement à ses prédictions linguistiques. Les VLA notables incluent RT-2 (tokénise les actions sous forme de jetons de texte et affine un VLM), OpenVLA (open source, paramètre 7B, formé sur Open X-Embodiment) et pi0 (VLA de correspondance de flux de Physical Intelligence). Voir le Article VLA et VLM et le Catalogue de modèles SVRC.

Modèle de fondationLangueConcept de base

VipèreX

ViperX est une série de bras robotisés 6-DOF fabriqués par Trossen Robotics, largement utilisés dans la recherche universitaire sur l'apprentissage des robots en raison de leur faible coût, de leur prise en charge ROS et de leur compatibilité avec l'écosystème servo DYNAMIXEL. Le ViperX 300 (avec une portée de 300 mm) et le ViperX 300-S font partie des bras de recherche les plus courants dans les configurations d'apprentissage par imitation et sont les bras suiveurs de l'original. ALOHA système. Les bras ViperX ont une charge utile modeste (~ 750 g) et une précision par rapport aux robots industriels, mais offrent un point d'entrée accessible pour la recherche sur la manipulation. Parcourir les SVRC quincaillerie pour la disponibilité.

MatérielRobot de recherche

Asservissement visuel

L'asservissement visuel utilise le retour de caméra dans un contrôleur en boucle fermée pour guider un robot vers un objectif défini dans l'espace image (Image-Based Visual Servoing, IBVS) ou dans l'espace 3D estimé à partir d'images (Position-Based Visual Servoing, PBVS). Dans IBVS, le contrôleur minimise l'erreur entre les caractéristiques de l'image détectées (points clés, cadres de délimitation des objets) et leurs positions souhaitées dans le plan de l'image, sans calculer explicitement les poses 3D. L'asservissement visuel est intéressant car il compense directement les erreurs d'étalonnage et le désalignement caméra-robot. Les variantes modernes d'apprentissage profond entraînent les réseaux neuronaux à produire des commandes de vitesse d'asservissement directement à partir d'images brutes, permettant un alignement robuste sur de nouveaux objets.

ContrôlePerceptionBoucle fermée

W

Point de cheminement

Un waypoint est une configuration intermédiaire (angles d'articulation ou pose cartésienne) que la trajectoire d'un robot doit traverser du début à l'arrivée. Les waypoints permettent aux programmeurs et aux planificateurs de guider le chemin du robot à travers des poses spécifiques, par exemple pour éviter un obstacle, s'approcher d'un objet depuis une direction sûre ou séquencer une procédure d'assemblage en plusieurs étapes. Dans l'apprentissage robotique, les politiques de haut niveau génèrent parfois des points de cheminement qu'un planificateur de mouvement de niveau inférieur interpole en trajectoires communes fluides, combinant les avantages de généralisation des politiques apprises avec les garanties de sécurité de la planification classique.

PlanificationTrajectoire

Contrôle de tout le corps (WBC)

Le contrôle du corps entier coordonne simultanément toutes les articulations d'un robot à pattes ou humanoïde pour satisfaire plusieurs objectifs concurrents - maintenir l'équilibre, suivre les cibles des effecteurs finaux, éviter les limites des articulations et gérer les forces de contact - résolu comme un problème d'optimisation contraint en temps réel (généralement un QP). WBC est essentiel pour les humanoïdes et les manipulateurs sur pattes car la base n'est pas fixe : le mouvement des bras déplace le centre de masse et doit être compensé par des ajustements des jambes et du torse. Les frameworks WBC comme Drake, Pinocchio et OCS2 sont couramment utilisés dans la recherche sur les humanoïdes. La plateforme mobile ALOHA et Boston Dynamics Atlas s'appuient sur des contrôleurs du corps entier pour la manipulation des locomotives. Voir Article sur le WBC.

ContrôleHumanoïdeLocomotion

Espace de travail

L'espace de travail d'un robot est l'ensemble de toutes les positions (et orientations) que l'effecteur final peut atteindre compte tenu de la structure cinématique et des limites articulaires du robot. Le espace de travail accessible désigne toutes les positions que l'effecteur final peut atteindre dans au moins une orientation ; le espace de travail adroit est le plus petit sous-ensemble accessible dans chaque orientation – la région la plus utile pour les tâches de manipulation nécessitant des angles d’approche arbitraires. L'analyse de l'espace de travail informe sur la disposition des cellules (à quelle distance les robots et les pièces doivent être), la sélection des robots (faire correspondre la portée à la disposition des tâches) et la planification des mouvements (identifier les chemins sans singularité à travers l'espace de travail).

CinématiqueMatérielPlanification

Z

Zar (format des données)

Zarr est un format open source permettant de stocker des tableaux à n dimensions sous forme fragmentée et compressée, conçu pour les charges de travail d'E/S cloud natives et parallèles. En robotique, Zarr est utilisé pour stocker de grands ensembles de données de démonstration de robots (images, états communs, actions) dans un format qui peut être lu efficacement à partir du stockage d'objets (S3, GCS) sans télécharger de fichiers entiers. Contrairement à HDF5, Zarr prend en charge les écritures simultanées, ce qui le rend adapté aux pipelines de collecte de données distribuées. Zarr v3 a standardisé le format et ajouté la prise en charge du partitionnement (combinant de nombreux petits morceaux en moins de gros fichiers), ce qui améliore l'efficacité du stockage dans le cloud. Des projets comme LeRobot et plusieurs ensembles de données de véhicules autonomes ont adopté Zarr pour l'hébergement d'ensembles de données à grande échelle.

DonnéesStockageIngénierie

Généralisation du tir zéro

La généralisation sans tir est la capacité d'une politique formée à exécuter avec succès des tâches, des objets ou des environnements qu'elle n'a jamais explicitement vus au cours de la formation, sans aucun réglage ni démonstration supplémentaire. Le véritable transfert zéro-shot est un objectif majeur des modèles de base de robots : une politique qui généralise le zéro-shot à de nouveaux objets ménagers ou à de nouvelles instructions linguistiques réduirait considérablement la charge de collecte de données. Les modèles VLA actuels montrent une généralisation prometteuse du langage sans tir (compréhension de nouvelles formulations de types de tâches connus), mais ont toujours du mal avec des catégories d'objets véritablement nouvelles ou des compétences de manipulation complètement nouvelles. L’amélioration des performances zéro tir est la motivation centrale pour faire évoluer les ensembles de données de robots et la taille des modèles. Voir aussi Article sur le transfert zéro-shot.

GénéralisationModèle de fondationFrontière de la recherche

Aucun terme ne correspond à votre recherche

Essayez un terme plus court ou vérifiez l’orthographe. Les 65 termes sont répertoriés ci-dessus lorsque la recherche est effacée.

Besoin de données robotiques pour votre projet d'apprentissage ?

Nous collectons des démonstrations de haute qualité prêtes à l'apprentissage pour l'apprentissage par imitation et le RL — de la manipulation sur table aux tâches bimanuelles mobiles.

Services de données Contactez-nous