Модуль 4: Обучение политике — Путь обучения LeRobot

Выбор политики

LeRobot поставляет три готовые к использованию политические архитектуры. Выберите один перед началом тренировки — вы не можете переключиться во время тренировки.

Рекомендуется для этого пути

ACT

Действие «Чанкированные трансформеры». Лучше всего подходит для ловких манипуляций одной рукой. Обучается за 1–3 часа на графическом процессоре. Предсказуемые гиперпараметры. Используйте это.

Политика распространения

Более высокая максимальная точность при выполнении точных задач, но в 3–5 раз медленнее обучение и выводы. Используйте его после того, как у вас будет рабочая базовая линия ACT.

СмолВЛА

Обусловленный языком VLA. Используйте, когда ваша задача требует инструкций на естественном языке или многозадачного обобщения. Требуется больше данных.

Учебное командование ACT

Заменять $HF_USER/pick-place-v1 с вашим идентификатором репозитория набора данных из модуля 3.

источник ~/lerobot-env/bin/activate python -m lerobot.scripts.train \ --policy-type act \ --dataset-repo-id $HF_USER/pick-place-v1 \ --output-dir ~/lerobot-policies/pick-place-v1 \ --config-overrides \ Training.num_steps=50000 \ Training.eval_freq=5000 \ Training.save_freq=5000 \ Training.batch_size=32 \ policy.chunk_size=100 \ policy.n_action_steps=100

# Add --device cuda if you have a GPU (strongly recommended)
# Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/
# Start this before sleep — it can run unattended

Время обучения графического процессора и процессора: На RTX 3090 (24 ГБ) 50 000 шагов занимает примерно 60–80 минут. На RTX 3080 (10 ГБ) примерно 90–120 минут. На процессоре ожидайте 8–12 часов. Варианты облачных графических процессоров (Lambda Labs, Vast.ai) стоят 0,50–1,50 доллара в час за необходимое оборудование.

Параметр	Рекомендуется	Почему
num_steps	50000	Достаточно для 50–100 демонстраций простого выбора и размещения. Увеличьте до 80 тыс., если плато потерь наступит поздно.
размер_пакета	32	Стандарт для наборов данных с одним рукавом. Уменьшите значение до 16, если у вас заканчивается память графического процессора.
размер_куска	100	ACT планирует на 100 шагов вперед. При 30 кадрах в секунду это примерно 3,3 секунды — хороший горизонт планирования для выбора и размещения.
n_action_steps	100	Должно соответствовать chunk_size. Уменьшает частоту вывода и упрощает выполнение.
kl_weight	10	ЛеРобот по умолчанию. Не меняйте значение, если L_kl не станет близким к нулю после 20 тыс. шагов.
лр	1е-5	LeRobot по умолчанию для ACT. Уменьшите до 5e-6, если потери при реконструкции колеблются, а не сходятся.

Чтение журналов тренировок

Журналы тренировок распечатываются на терминал и в TensorBoard. Запустите TensorBoard во втором терминале:

тензорная доска --logdir ~/lerobot-policies/

Затем откройте http://localhost:6006 в вашем браузере. Посмотрите эти кривые:

потеря/реконструкция (L_recon)

Первичный тренировочный сигнал. Должно уменьшаться с ~2,5–3,5 до уровня ниже 0,1 на 50 000 шагов. Плато выше 0,15 после 40 000 шагов обычно означает, что ваш набор данных имеет слишком большую дисперсию — просмотрите передовые методы демонстрации в Блоке 3 и рассмотрите возможность записи более последовательных демонстраций.

замок/кл (L_kl)

Медленно возрастает от около 0 до 5–20. Это ожидаемое поведение — CVAE изучает встраивание компактного стиля. Если оно превышает 40, ваши демонстрации содержат слишком много поведенческого разнообразия. Если после 20 тыс. шагов значение остается около 0, CVAE не обучается; увеличьте kl_weight до 20.

поезд/потеря (общая потеря)

L_recon + kl_weight × L_kl. На ранних этапах обучения доминировал L_recon. Должно монотонно уменьшаться. Общая потеря, которая увеличивается после первоначального снижения, указывает на то, что снижение скорости обучения слишком агрессивное — проверьте конфигурацию планировщика.

Управление контрольно-пропускными пунктами

Контрольно-пропускные пункты сохраняют каждые 5000 шагов, чтобы ~/lerobot-policies/pick-place-v1/checkpoints/. Не думайте, что последняя контрольная точка будет лучшей. Политика может переобуться при большом количестве шагов, особенно с небольшими наборами данных.

После тренировки определите лучшую контрольную точку: это шаг, на котором L_reconstruction достиг минимума, прежде чем начать выходить на плато. Для 50 демонстраций это обычно происходит в диапазоне 35 000–50 000 шагов. Сохраните этот номер шага — вы будете использовать его в модуле 5.

Часть 4 завершена, когда...

В ходе обучения выполнено 50 000 шагов, контрольные точки сохранены в ~/lerobot-policies/pick-place-v1/checkpoints/. Окончательная потеря L_reconstruction ниже 0,1. Вы определили лучший шаг контрольной точки на основе кривых потерь. Вы понимаете, что L_kl делает во время тренировки. Вы готовы оценить политику в Блоке 5.

Обучение политике