Apprentissage par imitation

Apprendre des démonstrations : des robots qui reproduisent le comportement humain à partir de données de téléopération.

Qu’est-ce que l’apprentissage par imitation ?

L'apprentissage par imitation (IL) est un paradigme dans lequel un robot apprend à effectuer des tâches en observant et en reproduisant des démonstrations d'experts. Au lieu d’apprendre à partir de signaux de récompense (comme dans l’apprentissage par renforcement), le robot apprend à partir de paires état-action collectées lors de la téléopération humaine ou de l’enseignement kinesthésique.

Approches clés

Clonage de comportement (BC) — Apprentissage supervisé à partir de binômes (observation, action). Simple mais sujet à un changement de distribution.
Poignard — Collecte de données itérative : exécuter la politique, obtenir des corrections d'experts, se recycler. Réduit le décalage de distribution.
Apprentissage par renforcement inverse (IRL) — Déduire la fonction de récompense à partir des démonstrations, puis optimiser la politique.

Ressources connexes

Ensembles de données open source — DROID, BridgeData, ALOHA, Open X-Embodiment
Modèles de politiques — ACT, Politique de diffusion, OpenVLA, Octo
Services de données — Nous collectons des démonstrations prêtes à l'apprentissage pour vos tâches