Définition

La mise en forme des récompenses ajoute des termes de récompense supplémentaires à la récompense de base clairsemée (par exemple, réussite/échec d'une tâche) pour fournir des signaux d'apprentissage plus denses. Dans la manipulation robotique, les récompenses façonnées peuvent inclure la distance jusqu'à la cible, la progression vers un sous-objectif ou l'établissement d'un contact. Une bonne mise en forme des récompenses accélère considérablement l’apprentissage, mais risque de créer un piratage des récompenses – des comportements qui maximisent la récompense façonnée sans atteindre le véritable objectif. L’élaboration des récompenses en fonction du potentiel préserve les garanties politiques optimales du MDP initial. La conception automatique de récompenses à l’aide de modèles linguistiques est une direction de recherche active.

Pourquoi c'est important pour les équipes de robots

Comprendre la configuration des récompenses est essentiel pour les équipes qui construisent des systèmes robotiques réels. Que vous collectiez des données de démonstration, formiez des politiques en simulation ou déployiez en production, ce concept affecte directement votre flux de travail et la conception de votre système.