奖励塑造——机器人学习术语表| SVRC

定义

奖励塑造在基本稀疏奖励（例如任务成功/失败）的基础上添加了补充奖励项，以提供更密集的学习信号。在机器人操作中，成形奖励可能包括距目标的距离、子目标的进展或联系的建立。良好的奖励塑造可以极大地加速学习，但有可能会造成奖励黑客行为，即最大化所塑造的奖励而不实现真正目标的行为。基于潜力的奖励塑造保留了原始 MDP 的最优政策保证。使用语言模型的自动奖励设计是一个活跃的研究方向。

为什么它对机器人团队很重要

了解奖励塑造对于构建现实世界机器人系统的团队至关重要。无论您是收集演示数据、在模拟中训练策略，还是在生产中部署，此概念都会直接影响您的工作流程和系统设计。

奖励塑造

定义

为什么它对机器人团队很重要

相关页面

强化学习

模拟到真实

机器人学院

研究文章