Definição
A modelagem de recompensa adiciona termos de recompensa suplementares à recompensa base esparsa (por exemplo, sucesso/falha da tarefa) para fornecer sinais de aprendizado mais densos. Na manipulação robótica, recompensas modeladas podem incluir distância até o alvo, progresso em direção a um subobjetivo ou estabelecimento de contato. Uma boa modelagem de recompensa acelera dramaticamente o aprendizado, mas corre o risco de criar hacking de recompensa — comportamentos que maximizam a recompensa modelada sem alcançar o verdadeiro objetivo. A modelagem de recompensa baseada em potencial preserva as garantias de política ótima do MDP original. O design automático de recompensas usando modelos de linguagem é uma direção de pesquisa ativa.
Por que isso é importante para equipes de robôs
Compreender a modelagem de recompensa é essencial para equipes que constroem sistemas robóticos do mundo real. Seja coletando dados de demonstração, treinando políticas em simulação ou implantando em produção, esse conceito afeta diretamente seu fluxo de trabalho e design de sistema.