强化学习

从尝试和错误中学习——机器人根据奖励信号优化行为。

什么是强化学习？

强化学习（RL）是一种范例，其中代理学习通过与环境的交互来最大化累积奖励。代理采取行动，接收奖励（或惩罚），并更新其策略以随着时间的推移进行改进。

关键概念

奖励信号 — 指示任务进度的稀疏或密集反馈（例如，抓住的物体、达到的目标）。
政策 — 从观察到行动的映射。通常是神经网络（例如，PPO、SAC）。
模拟到真实 — 进行模拟训练，部署在真实机器人上。域随机化有助于弥合差距。

相关资源

强化学习环境即服务 — 为您的团队提供真实的强化学习环境
模拟到真实的传输 — 连接模拟和现实
数据服务 — 用于 RL 微调的真实数据