为什么数据质量胜过数据数量

包含 1,000 个高质量、多样化演示的数据集通常优于 10,000 个嘈杂的演示。 质量问题(传感器不同步、操作不连续、任务失败与成功混合以及标签不一致)会传播到训练有素的策略中,并导致神秘的部署失败。

15 点质量检查表

将这些检查应用于每批收集的剧集,然后再将其添加到训练集。

  • 传感器时间戳在 10 毫秒内同步
  • 没有丢失相机帧(检查帧数与持续时间)
  • 物理关节限制内的动作值
  • 平均步长没有 >2σ 的动作不连续性
  • 由第二位审阅者验证的成功/失败标签
  • 任务在预期期限内完成
  • 最终数据集中没有操作员自我修正
  • 关键阶段相机不被遮挡
  • 本体感觉与指令动作相匹配
  • 夹具状态在正确的时刻转换
  • 没有重复的剧集
  • 元数据字段完整(任务 ID、操作员、日期)
  • 以目标格式存储的剧集(RLDS/LeRobot)
  • 预期分布内的批量统计
  • 随机抽样目视抽查