Выбор политики
LeRobot поставляет три готовые к использованию политические архитектуры. Выберите один перед началом тренировки — вы не можете переключиться во время тренировки.
ACT
Действие «Чанкированные трансформеры». Лучше всего подходит для ловких манипуляций одной рукой. Обучается за 1–3 часа на графическом процессоре. Предсказуемые гиперпараметры. Используйте это.
Политика распространения
Более высокая максимальная точность при выполнении точных задач, но в 3–5 раз медленнее обучение и выводы. Используйте его после того, как у вас будет рабочая базовая линия ACT.
СмолВЛА
Обусловленный языком VLA. Используйте, когда ваша задача требует инструкций на естественном языке или многозадачного обобщения. Требуется больше данных.
Учебное командование ACT
Заменять $HF_USER/pick-place-v1 с вашим идентификатором репозитория набора данных из модуля 3.
Рекомендуемые гиперпараметры для захвата и размещения одной рукой
| Параметр | Рекомендуется | Почему |
|---|---|---|
| num_steps | 50000 | Достаточно для 50–100 демонстраций простого выбора и размещения. Увеличьте до 80 тыс., если плато потерь наступит поздно. |
| размер_пакета | 32 | Стандарт для наборов данных с одним рукавом. Уменьшите значение до 16, если у вас заканчивается память графического процессора. |
| размер_куска | 100 | ACT планирует на 100 шагов вперед. При 30 кадрах в секунду это примерно 3,3 секунды — хороший горизонт планирования для выбора и размещения. |
| n_action_steps | 100 | Должно соответствовать chunk_size. Уменьшает частоту вывода и упрощает выполнение. |
| kl_weight | 10 | ЛеРобот по умолчанию. Не меняйте значение, если L_kl не станет близким к нулю после 20 тыс. шагов. |
| лр | 1е-5 | LeRobot по умолчанию для ACT. Уменьшите до 5e-6, если потери при реконструкции колеблются, а не сходятся. |
Чтение журналов тренировок
Журналы тренировок распечатываются на терминал и в TensorBoard. Запустите TensorBoard во втором терминале:
Затем откройте http://localhost:6006 в вашем браузере. Посмотрите эти кривые:
потеря/реконструкция (L_recon)
Первичный тренировочный сигнал. Должно уменьшаться с ~2,5–3,5 до уровня ниже 0,1 на 50 000 шагов. Плато выше 0,15 после 40 000 шагов обычно означает, что ваш набор данных имеет слишком большую дисперсию — просмотрите передовые методы демонстрации в Блоке 3 и рассмотрите возможность записи более последовательных демонстраций.
замок/кл (L_kl)
Медленно возрастает от около 0 до 5–20. Это ожидаемое поведение — CVAE изучает встраивание компактного стиля. Если оно превышает 40, ваши демонстрации содержат слишком много поведенческого разнообразия. Если после 20 тыс. шагов значение остается около 0, CVAE не обучается; увеличьте kl_weight до 20.
поезд/потеря (общая потеря)
L_recon + kl_weight × L_kl. На ранних этапах обучения доминировал L_recon. Должно монотонно уменьшаться. Общая потеря, которая увеличивается после первоначального снижения, указывает на то, что снижение скорости обучения слишком агрессивное — проверьте конфигурацию планировщика.
Управление контрольно-пропускными пунктами
Контрольно-пропускные пункты сохраняют каждые 5000 шагов, чтобы ~/lerobot-policies/pick-place-v1/checkpoints/. Не думайте, что последняя контрольная точка будет лучшей. Политика может переобуться при большом количестве шагов, особенно с небольшими наборами данных.
После тренировки определите лучшую контрольную точку: это шаг, на котором L_reconstruction достиг минимума, прежде чем начать выходить на плато. Для 50 демонстраций это обычно происходит в диапазоне 35 000–50 000 шагов. Сохраните этот номер шага — вы будете использовать его в модуле 5.
Часть 4 завершена, когда...
В ходе обучения выполнено 50 000 шагов, контрольные точки сохранены в ~/lerobot-policies/pick-place-v1/checkpoints/. Окончательная потеря L_reconstruction ниже 0,1. Вы определили лучший шаг контрольной точки на основе кривых потерь. Вы понимаете, что L_kl делает во время тренировки. Вы готовы оценить политику в Блоке 5.