← 术语表

强化学习

从尝试和错误中学习——机器人根据奖励信号优化行为。

什么是强化学习?

强化学习(RL)是一种范例,其中代理学习通过与环境的交互来最大化累积奖励。 代理采取行动,接收奖励(或惩罚),并更新其策略以随着时间的推移进行改进。

关键概念

  • 奖励信号 — 指示任务进度的稀疏或密集反馈(例如,抓住的物体、达到的目标)。
  • 政策 — 从观察到行动的映射。 通常是神经网络(例如,PPO、SAC)。
  • 模拟到真实 — 进行模拟训练,部署在真实机器人上。 域随机化有助于弥合差距。

相关资源