Почему качество данных превосходит их количество

Набор данных из 1000 высококачественных и разнообразных демонстраций часто превосходит 10 000 шумных демонстраций. Проблемы качества — рассинхронизация датчиков, прерывания действий, сбои задач, смешанные с успешными, и противоречивая маркировка — распространяются на обученные политики и вызывают загадочные сбои при развертывании.

Контрольный список качества из 15 пунктов

Примените эти проверки к каждой партии собранных эпизодов, прежде чем добавлять их в свой обучающий набор.

  • Временные метки датчиков синхронизируются в течение 10 мс.
  • Нет пропущенных кадров камеры (проверьте количество кадров в зависимости от их продолжительности)
  • Значения действий в пределах физических суставов
  • Отсутствие разрывов действия >2σ от среднего размера шага
  • Ярлыки успеха/неуспеха проверены вторым рецензентом
  • Задача завершена в пределах ожидаемой продолжительности
  • Никаких самокорректировок оператора в окончательном наборе данных.
  • Камера не закрывается на критических этапах
  • Проприоцепция соответствует командным действиям
  • Переходы состояний захвата в правильные моменты
  • Никаких дублирующих серий
  • Поля метаданных заполнены (идентификатор задачи, оператор, дата)
  • Эпизод сохранен в целевом формате (RLDS/LeRobot).
  • Статистика пакетов в ожидаемых распределениях
  • Случайная выборка, проверенная визуально