模拟评估
即使您拥有真正的机器人,也始终首先在模拟中进行评估。 Sim 评估快速、安全,并为您提供可重复的基线数字,您可以在重新训练后进行比较。
真实机器人安全检查表
如果您正在评估真实的机器人,请在首次部署之前仔细检查此清单。 未经检验的政策可能会以意想不到的方式发展。
- 清除工作区中不属于任务的任何对象。 该策略学会了在特定的视觉环境中采取行动——意外的物体可能会导致不稳定的行为。
- 在整个评估过程中保持紧急停止 (E-stop) 状态或准备按 Ctrl+C。 不要放弃现行政策。
- 开始时速度限制为最大 50%。 如果第一次试验看起来不稳定或不精确,则减少到 30%。
- 放置对象以完全匹配您的训练工作空间设置。 使用相同的相机角度、相同的照明、相同的物体颜色。 分销转移是现实世界成功率为零的最常见原因。
- 切勿在超出机器人关节物理停止限制的情况下进行评估。 首次运行之前,请在机器人配置中检查这些内容。
真实机器人评估协议
正好运行 20 次试验。 这为您提供了足够的样本来进行可靠的成功率估计(在 95% 置信水平下为 ±10%)。 将每次试验记录在视频中 - 您将需要这些镜头来诊断故障模式。
每次尝试后,手动评分:1 代表完成任务成功,0 代表任何失败(部分掌握、掉落、错过)。 您的成功率是总和除以 20。
诊断故障模式
观看您的视频记录并对故障进行分类。 大多数失败属于以下三类之一:
接近轨迹不一致——手臂永远无法完全抓住
该策略是对训练数据中的多个掌握策略进行平均。 当一些演示从左侧接近而另一些演示从右侧接近时,或者当夹具关闭时间不一致时,就会发生这种情况。 修复:在所有演示中使用单一的、深思熟虑的策略重新记录。
轨迹看起来合理,但精度始终偏差 1-2 厘米
该模型正在学习正确的行为,但缺乏精确的能力。 当 chunk_size 太短(规划范围不够)或 dim_feedforward 太小时,就会发生这种情况。 修复:将 chunk_size 增加到 150,重新训练。 或者添加更多样的演示来规范网络。
在某些位置上工作完美,在其他位置上完全失败
评估期间的对象位置不在训练数据的分布范围内。 该政策以前从未见过这些立场。 修复:收集更多具有更多样化的对象位置的演示,或者将您的评估限制在训练数据中充分代表的位置。
第 5 单元完成时...
您已运行 20 次评估试验(在模拟中或在真实机器人上)并测量了成功率。 您已观看所有故障模式视频,并确定主要故障是否是数据质量、模型容量或分布变化。 您已写下此诊断 - 您将使用它来指导第 6 单元中的数据收集。