第五单元：评估你的政策——乐机器人学习路径| SVRC学院

模拟评估

即使您拥有真正的机器人，也始终首先在模拟中进行评估。 Sim 评估快速、安全，并为您提供可重复的基线数字，您可以在重新训练后进行比较。

源〜/lerobot-env/bin/activate

# Evaluate your best checkpoint (replace step_050000 with your checkpoint step)
python -m lerobot.scripts.eval \ --预训练策略名称或路径 \ 〜/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --env.namegym_pusht/PushT-v0 \ --eval.n-episodes 20 \ --eval.use-async-envs false

# Outputs: success_rate, mean_reward, episode_videos/

期待什么： 训练有素的 50 个 sim 演示策略应能在 MuJoCo 中实现 60-85% 的成功率。低于 40% 表明存在数据集质量问题。高于 85% 意味着任务太简单或模拟环境太宽容 - 尝试更难的变体。

真实机器人安全检查表

如果您正在评估真实的机器人，请在首次部署之前仔细检查此清单。未经检验的政策可能会以意想不到的方式发展。

清除工作区中不属于任务的任何对象。该策略学会了在特定的视觉环境中采取行动——意外的物体可能会导致不稳定的行为。
在整个评估过程中保持紧急停止 (E-stop) 状态或准备按 Ctrl+C。不要放弃现行政策。
开始时速度限制为最大 50%。如果第一次试验看起来不稳定或不精确，则减少到 30%。
放置对象以完全匹配您的训练工作空间设置。使用相同的相机角度、相同的照明、相同的物体颜色。分销转移是现实世界成功率为零的最常见原因。
切勿在超出机器人关节物理停止限制的情况下进行评估。首次运行之前，请在机器人配置中检查这些内容。

真实机器人评估协议

正好运行 20 次试验。这为您提供了足够的样本来进行可靠的成功率估计（在 95% 置信水平下为 ±10%）。将每次试验记录在视频中 - 您将需要这些镜头来诊断故障模式。

# Run the policy on your real robot
python -m lerobot.scripts.control_robot \ --robot-path lerobot/configs/robot/so100.yaml \ --控制模式评估\ --预训练策略名称或路径 \ 〜/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --eval.n-episodes 20 \ --录制视频1

每次尝试后，手动评分：1 代表完成任务成功，0 代表任何失败（部分掌握、掉落、错过）。您的成功率是总和除以 20。

诊断故障模式

观看您的视频记录并对故障进行分类。大多数失败属于以下三类之一：

数据质量

接近轨迹不一致——手臂永远无法完全抓住

该策略是对训练数据中的多个掌握策略进行平均。当一些演示从左侧接近而另一些演示从右侧接近时，或者当夹具关闭时间不一致时，就会发生这种情况。修复：在所有演示中使用单一的、深思熟虑的策略重新记录。

型号容量

轨迹看起来合理，但精度始终偏差 1-2 厘米

该模型正在学习正确的行为，但缺乏精确的能力。当 chunk_size 太短（规划范围不够）或 dim_feedforward 太小时，就会发生这种情况。修复：将 chunk_size 增加到 150，重新训练。或者添加更多样的演示来规范网络。

分布转移

在某些位置上工作完美，在其他位置上完全失败

评估期间的对象位置不在训练数据的分布范围内。该政策以前从未见过这些立场。修复：收集更多具有更多样化的对象位置的演示，或者将您的评估限制在训练数据中充分代表的位置。

第 5 单元完成时...

您已运行 20 次评估试验（在模拟中或在真实机器人上）并测量了成功率。您已观看所有故障模式视频，并确定主要故障是否是数据质量、模型容量或分布变化。您已写下此诊断 - 您将使用它来指导第 6 单元中的数据收集。

评估您的保单