我们如何看待现实世界的评估
为什么当您评估需要在真实操作条件下生存的机器人时,仅任务成功是不够的。
与部署风险相匹配的评估
部署形状
措施
失败
迭代
机器人评估经常会失败,就像产品分析失败一样:团队针对最简单的可见指标进行优化,并假设它代表整个系统。 在机器人技术中,这通常意味着在受控条件下测量的成功率很小。 现实世界的评估需要更广泛的框架。
成功是必要的,但还不够
一项政策可以完成一项任务,但仍然很脆弱。 它可能取决于狭窄的初始条件,完全避免接触,或者只有在时间、照明和物体放置异常干净时才能成功。 任务越深入真实环境,这些隐藏的假设就越会显现出来。
我们所看重的是什么
- 重复性 — 系统是否可以跨运行执行,而不仅仅是在突出显示的示例上执行?
- 恢复 — 当第一次尝试不完美时会发生什么?
- 接触质量 — 当力和摩擦力很重要时,机器人的行为是否可预测?
- 运营稳健性 — 设置对校准漂移、重置成本和环境噪声的敏感度如何?
评估应匹配部署形式
正确的基准取决于机器人的居住地点。 演示机器人、研究平台和生产单元不具有相同的风险状况。 良好的评估设置会考虑到这一点,而不是假装一个指标可以涵盖所有三个指标。
为什么现实世界的证据很重要
这是我们如此重视真实机器人环境和实时系统的原因之一。 模拟很有用,但它隐藏了许多使评估有意义的干扰:不完美的传感、真实的磨损、人类重置行为以及编写脚本比观察更难的任务上下文。
实用规则 — 如果您的基准测试没有揭示第一次小故障后发生的情况,则可能高估了系统质量。