为什么数据质量胜过数据数量
包含 1,000 个高质量、多样化演示的数据集通常优于 10,000 个嘈杂的演示。 质量问题(传感器不同步、操作不连续、任务失败与成功混合以及标签不一致)会传播到训练有素的策略中,并导致神秘的部署失败。
15 点质量检查表
将这些检查应用于每批收集的剧集,然后再将其添加到训练集。
- 传感器时间戳在 10 毫秒内同步
- 没有丢失相机帧(检查帧数与持续时间)
- 物理关节限制内的动作值
- 平均步长没有 >2σ 的动作不连续性
- 由第二位审阅者验证的成功/失败标签
- 任务在预期期限内完成
- 最终数据集中没有操作员自我修正
- 关键阶段相机不被遮挡
- 本体感觉与指令动作相匹配
- 夹具状态在正确的时刻转换
- 没有重复的剧集
- 元数据字段完整(任务 ID、操作员、日期)
- 以目标格式存储的剧集(RLDS/LeRobot)
- 预期分布内的批量统计
- 随机抽样目视抽查