Définition
Les politiques basées sur les transformateurs appliquent des mécanismes d'attention au contrôle des robots. Ils peuvent traiter des entrées hétérogènes (images, proprioception, instructions linguistiques et historique des actions) via un modèle de séquence unifié. Les architectures clés incluent RT-1 (actions tokenisées avec vision EfficientNet), RT-2 (épine dorsale VLM), ACT (transformateur de segmentation d'action pour le contrôle bimanuel) et Octo (transformateur multi-incarnations évolutif). Les transformateurs gèrent naturellement les contextes de longueur variable et le conditionnement multitâche. Leur principal défi en robotique est la latence d'inférence : le contrôle en temps réel à 10-50 Hz nécessite des conceptions de modèles efficaces ou une segmentation des actions pour amortir le calcul.
Pourquoi c'est important pour les équipes de robots
Comprendre la politique des transformateurs est essentiel pour les équipes qui construisent des systèmes robotiques réels. Que vous collectiez des données de démonstration, formiez des politiques en simulation ou déployiez en production, ce concept affecte directement votre flux de travail et la conception de votre système.