Apprentissage politique

Mappage des observations aux actions - politiques visuomotrices pour le contrôle des robots.

Qu’est-ce que l’apprentissage politique ?

Une politique est une fonction qui mappe les observations (images, état) aux actions (commandes conjointes, pince). L'apprentissage politique entraîne cette cartographie à partir de données (imitation) ou de récompense (RL). Les politiques visuomotrices utilisent la vision comme élément principal.

Architectures clés

ACT (Action Chunking avec transformateurs) — Prédit les morceaux d'action ; exécution en douceur.
Politique de diffusion — Diffusion débruitante pour les distributions d'actions multimodales.
Clonage de comportement — Apprentissage supervisé simple à partir de démos.
VLA — Modèles vision-langage-action (OpenVLA, RT-2) avec conditionnement du langage.

Ressources connexes

Modèles de politiques — ACT, Politique de diffusion, OpenVLA, Octo
Apprentissage par imitation
Services de données — Données pour former votre politique