← 术语表
从尝试和错误中学习——机器人根据奖励信号优化行为。
强化学习(RL)是一种范例,其中代理学习通过与环境的交互来最大化累积奖励。 代理采取行动,接收奖励(或惩罚),并更新其策略以随着时间的推移进行改进。