← Glossaire

Apprentissage par renforcement

Apprendre par essais et erreurs : des robots qui optimisent le comportement à partir de signaux de récompense.

Qu’est-ce que l’apprentissage par renforcement ?

L'apprentissage par renforcement (RL) est un paradigme dans lequel un agent apprend à maximiser la récompense cumulative grâce à l'interaction avec un environnement. L'agent prend des mesures, reçoit des récompenses (ou des pénalités) et met à jour sa politique pour l'améliorer au fil du temps.

Concepts clés

  • Signal de récompense — Rétroaction clairsemée ou dense indiquant la progression de la tâche (par exemple, objet saisi, objectif atteint).
  • Politique — Cartographie des observations aux actions. Souvent des réseaux de neurones (par exemple, PPO, SAC).
  • Sim-à-réel — Entraînez-vous en simulation, déployez sur de vrais robots. La randomisation des domaines aide à combler le fossé.

Ressources connexes