Почему качество данных превосходит их количество
Набор данных из 1000 высококачественных и разнообразных демонстраций часто превосходит 10 000 шумных демонстраций. Проблемы качества — рассинхронизация датчиков, прерывания действий, сбои задач, смешанные с успешными, и противоречивая маркировка — распространяются на обученные политики и вызывают загадочные сбои при развертывании.
Контрольный список качества из 15 пунктов
Примените эти проверки к каждой партии собранных эпизодов, прежде чем добавлять их в свой обучающий набор.
- Временные метки датчиков синхронизируются в течение 10 мс.
- Нет пропущенных кадров камеры (проверьте количество кадров в зависимости от их продолжительности)
- Значения действий в пределах физических суставов
- Отсутствие разрывов действия >2σ от среднего размера шага
- Ярлыки успеха/неуспеха проверены вторым рецензентом
- Задача завершена в пределах ожидаемой продолжительности
- Никаких самокорректировок оператора в окончательном наборе данных.
- Камера не закрывается на критических этапах
- Проприоцепция соответствует командным действиям
- Переходы состояний захвата в правильные моменты
- Никаких дублирующих серий
- Поля метаданных заполнены (идентификатор задачи, оператор, дата)
- Эпизод сохранен в целевом формате (RLDS/LeRobot).
- Статистика пакетов в ожидаемых распределениях
- Случайная выборка, проверенная визуально