Apprentissage par imitation
Apprendre des démonstrations : des robots qui reproduisent le comportement humain à partir de données de téléopération.
Qu’est-ce que l’apprentissage par imitation ?
L'apprentissage par imitation (IL) est un paradigme dans lequel un robot apprend à effectuer des tâches en observant et en reproduisant des démonstrations d'experts. Au lieu d’apprendre à partir de signaux de récompense (comme dans l’apprentissage par renforcement), le robot apprend à partir de paires état-action collectées lors de la téléopération humaine ou de l’enseignement kinesthésique.
Approches clés
- Clonage de comportement (BC) — Apprentissage supervisé à partir de binômes (observation, action). Simple mais sujet à un changement de distribution.
- Poignard — Collecte de données itérative : exécuter la politique, obtenir des corrections d'experts, se recycler. Réduit le décalage de distribution.
- Apprentissage par renforcement inverse (IRL) — Déduire la fonction de récompense à partir des démonstrations, puis optimiser la politique.
Ressources connexes
- Ensembles de données open source — DROID, BridgeData, ALOHA, Open X-Embodiment
- Modèles de politiques — ACT, Politique de diffusion, OpenVLA, Octo
- Services de données — Nous collectons des démonstrations prêtes à l'apprentissage pour vos tâches