Apprentissage politique
Mappage des observations aux actions - politiques visuomotrices pour le contrôle des robots.
Qu’est-ce que l’apprentissage politique ?
Une politique est une fonction qui mappe les observations (images, état) aux actions (commandes conjointes, pince). L'apprentissage politique entraîne cette cartographie à partir de données (imitation) ou de récompense (RL). Les politiques visuomotrices utilisent la vision comme élément principal.
Architectures clés
- ACT (Action Chunking avec transformateurs) — Prédit les morceaux d'action ; exécution en douceur.
- Politique de diffusion — Diffusion débruitante pour les distributions d'actions multimodales.
- Clonage de comportement — Apprentissage supervisé simple à partir de démos.
- VLA — Modèles vision-langage-action (OpenVLA, RT-2) avec conditionnement du langage.
Ressources connexes
- Modèles de politiques — ACT, Politique de diffusion, OpenVLA, Octo
- Apprentissage par imitation
- Services de données — Données pour former votre politique