机器人评估数据集

当团队需要可重复性、场景标记和基准对齐而不仅仅是更多原始训练数据时,评估数据集就很重要。

核心要求
  • 重置纪律场景再现性是基本要求。
  • 结果定义团队需要明确的成功、部分成功和失败语义。
  • 覆盖图良好的评估集揭示了政策仍然无法做到的事情。
商业用途

此页面应该吸引买家和技术主管在部署前寻找证据,而不仅仅是浏览学术语料库的研究人员。

需要可衡量的评估数据?

我们可以设计具有可重复重置和清晰性能切片的测试集。