Definición

El modelado de recompensas añade términos de recompensa suplementarios a la recompensa base escasa (por ejemplo, éxito/fallo de la tarea) para proporcionar señales de aprendizaje más densas. En la manipulación robótica, las recompensas modeladas pueden incluir la distancia al objetivo, el progreso hacia un subobjetivo o el establecimiento de contacto. Un buen modelado de recompensas acelera drásticamente el aprendizaje, pero corre el riesgo de crear hackeo de recompensas: comportamientos que maximizan la recompensa modelada sin lograr el verdadero objetivo. El modelado de recompensas basado en potenciales preserva las garantías de política óptima del MDP original. El diseño automático de recompensas utilizando modelos de lenguaje es una dirección de investigación activa.

Por qué es importante para los equipos de robots

Comprender el modelado de recompensas es esencial para los equipos que construyen sistemas robóticos en el mundo real. Ya sea que esté recopilando datos de demostración, entrenando políticas en simulación o implementando en producción, este concepto afecta directamente su flujo de trabajo y diseño del sistema.