政策学习

将观察结果映射到行动——机器人控制的视觉运动策略。

什么是政策学习？

策略是将观察结果（图像、状态）映射到操作（关节命令、夹具）的函数。策略学习通过数据（模仿）或奖励（RL）来训练这种映射。视觉运动政策使用视觉作为主要输入。

关键架构

ACT（变形金刚动作分块） — 预测动作块；顺利执行。
扩散政策 - 多模式动作分布的去噪扩散。
行为克隆 — 来自演示的简单监督学习。
VLA — 具有语言调节功能的视觉-语言-动作模型（OpenVLA、RT-2）。

相关资源

政策模型 — ACT、扩散政策、OpenVLA、Octo
模仿学习
数据服务 — 用于训练您的政策的数据