Почему качество данных важнее количества
Распространенное заблуждение в обучении роботов заключается в том, что чем больше демонстраций, тем лучше будет политика. Это неверно. Нейронные сети учатся имитировать распределение поведения в вашем наборе данных. Если ваши демонстрации непоследовательны — разные пути, разные скорости, разные положения объектов — сеть изучает размытое среднее значение, которое не соответствует ни одной реальной успешной стратегии.
50 демонстраций, в которых рука идет по одному и тому же чистому пути, захватывает объект в том же месте и возвращается в одно и то же исходное положение, создадут политику, которая обобщает лучше, чем 500 демонстраций с высокой дисперсией. Первый сеанс сбора — ваш шанс установить эту последовательность. Не торопись. Удалите и перезапишите любую демонстрацию, которая показалась вам неправильной.
Для более глубокого изучения проектирования трубопроводов прочтите Обзор конвейера сбора данных в библиотеке робототехники.
Формат набора данных LeRobot
Ваши записи будут сохранены в ЛеРобот формат — стандарт, используемый библиотекой LeRobot Hugging Face и совместимый с тренажерами ACT и Diffusion Policy, которые вы будете использовать в модуле 5.
Что записывается
Положения суставов (6 степеней свободы + захват), скорость суставов, положение рабочего органа, кадры камеры (RGB + дополнительная глубина), временные метки и метаданные задачи.
Структура файла
Одна папка на серию. Каждый эпизод содержит data.parquet с массивами состояний/действий и video/ подпапка с потоками камер.
Частота выборки
По умолчанию 50 Гц. Каждая секунда телеоперации производит 50 временных шагов. При выборе и размещении за 10 секунд получается 500 пар (состояние, действие).
Совместимость
Формат LeRobot загружается непосредственно в lerobot.common.datasets. Его также можно конвертировать в RLDS для конвейеров TF-Agents. Просмотр справочных наборов данных →
Ваша сессия записи
Запустите сценарий записи, указав имя вашей задачи и количество целевых эпизодов. Скрипт автоматически обрабатывает управление эпизодами, именование файлов и маркировку качества:
Настройте свое рабочее пространство с одним и тем же объектом в одной и той же начальной позиции для каждого эпизода. Используйте отметки скотчем на столе, чтобы обеспечить единообразие положения объекта. Ваша рука должна вернуться в ту же исходную позу перед началом каждого эпизода — сценарий записи обеспечивает это с помощью проверки наведения.
Практический совет: Стремитесь к эпизодам продолжительностью от 8 до 15 секунд каждый. Слишком короткий срок (менее 5 секунд), и у политики нет времени планировать плавную траекторию. Слишком длинные (более 20 секунд) и небольшие вариации составляют основу. Для стандартного выбора места цель — 10 секунд на серию.
Контрольный список качества данных
Прежде чем перейти к модулю 5, убедитесь, что ваш набор данных прошел все пять этих проверок. Отбрасывайте и перезаписывайте эпизоды, в которых не удалось выполнить какой-либо пункт.
- Ни одного неудачного захвата. Каждый эпизод заканчивается тем, что объект успешно помещается в целевое место. Эпизоды, где рука не захватывала или роняла предмет, необходимо удалять — они учат модель не срабатывать.
- Последовательная стартовая поза. Рука стартует из исходного положения в каждом эпизоде. Убедитесь в средстве просмотра набора данных, что углы суставов на временном шаге 0 находятся в пределах ± 2 ° друг от друга во всех 50 эпизодах.
-
Никаких резких прыжков и рывков. Визуализируйте 3–5 случайных эпизодов с помощью
python -m lerobot.visualize_dataset --dataset ~/openarm-datasets/pick-and-place. Последовательность действий должна представлять собой плавные непрерывные кривые, а не скачки. - Кадры камеры четкие и сфокусированные. Убедитесь, что камера вашего рабочего места не заслонена, не засвечена прямым светом и что объект четко виден на протяжении каждого эпизода. Размытое или темное видео снижает эффективность политики.
-
Сохранено 50 полных серий. Бегать
python -m lerobot.inspect ~/openarm-datasets/pick-and-placeи убедитесь, что у вас ровно 50 серий без поврежденных файлов. Сценарий будет отмечать любые эпизоды с пропущенными кадрами или обрезанными последовательностями действий.
Просмотрите эталонные наборы данных для сравнения
Библиотека наборов данных SVRC содержит примеры записей выбора и размещения, которые можно использовать в качестве эталона качества. Если ваши данные существенно отличаются, изучите их перед тренировкой. Открыть наборы данных SVRC →
Часть 4 завершена, когда...
У вас есть 50 чистых серий, сохраненных в формате LeRobot по адресу ~/openarm-datasets/pick-and-place. Все пять пунктов контрольного списка качества пройдены. Бег lerobot.inspect показывает 50 серий, ошибок нет. Вы готовы передать этот набор данных в конвейер обучения в модуле 5.