数据集簇

机器人评估数据集

当团队需要可重复性、场景标记和基准对齐而不仅仅是更多原始训练数据时，评估数据集就很重要。

核心要求

重置纪律场景再现性是基本要求。
结果定义团队需要明确的成功、部分成功和失败语义。
覆盖图良好的评估集揭示了政策仍然无法做到的事情。

相关链接

商业用途

此页面应该吸引买家和技术主管在部署前寻找证据，而不仅仅是浏览学术语料库的研究人员。

需要可衡量的评估数据？

我们可以设计具有可重复重置和清晰性能切片的测试集。

联系我们浏览基准