Модуль 5: Тренируйте свою первую политику — Путь обучения OpenArm

Что на самом деле дает имитационное обучение

Прежде чем запускать команду обучения, потратьте две минуты, чтобы понять, чему на самом деле обучается модель. Обучение подражанию обучает политическую сеть сопоставлять наблюдения (изображения с камеры + текущее состояние сустава) с действиями (следующие ракурсы сустава). Сеть никогда не получает сигнал вознаграждения — она видит только ваши демонстрации и учится воспроизводить распределение действий, выполненных вами в похожих состояниях.

ACT (Action Chunking with Transformers) предсказывает кусок 100 будущих действий одновременно, а не один шаг. Это предотвращает накопление ошибок в эпизоде: даже если индивидуальный прогноз немного неверен, фрагмент обеспечивает стабильный буфер траектории. Затем он перепланирует каждые 100 временных шагов (2 секунды при 50 Гц). Вот почему ACT справляется с более длительными задачами лучше, чем простое клонирование поведения.

Полную теоретическую базу читайте Основы имитационного обучения в библиотеке робототехники.

Графический процессор или процессор?

Обучение на графическом процессоре NVIDIA с видеопамятью объемом более 8 ГБ занимает примерно 45 минут при выполнении 100 тысяч шагов. Тренировка на CPU занимает 3–4 часа за один и тот же пробег. Оба обеспечивают одинаковое качество модели — графический процессор просто быстрее. Если у вас нет локального графического процессора, команда обучения работает одинаково в облачном экземпляре (Lambda Labs или Google Colab со средой выполнения A100). Инструкции находятся в README репозитория LeRobot.

Обучите ACT на своем наборе данных

Запустите сценарий обучения из своей виртуальной среды. Приведенные ниже значения конфигурации откалиброваны для наборов данных выбора и размещения из 50 эпизодов в OpenArm — не меняйте их при первом запуске:

источник ~/openarm-env/bin/activate python -m lerobot.scripts.train \ --dataset-path ~/openarm-datasets/pick-and-place \ --политический акт \ --batch-size 8 \ --lr 1e-5 \ --num-train-steps 100000 \ --eval-freq 5000 \ --save-freq 10000 \ --log-freq 500 \ --output-dir ~/openarm-policies/pick-and-place-v1

# Training will print loss every 500 steps and eval results every 5000 steps
# Checkpoints saved every 10k steps to ~/openarm-policies/pick-and-place-v1/

Начните обучение, а затем следите за результатами. Вам не нужно смотреть его все время — но проверяйте его каждые 20–30 минут, чтобы убедиться, что потери уменьшаются и запуск не сбился. Тренировка может проходить всю ночь, пока вы спите.

Понимание тренировочных кривых

Результаты обучения ACT показывают два ключевых показателя. Научитесь их правильно читать — они расскажут вам, полезны ли ваши тренировки и когда следует остановиться.

Потеря тренировки

Должно резко снижаться на первых 20 тысячах шагов, затем продолжать снижение более медленно. Потери, превышающие 0,05, обычно указывают на проблемы с качеством данных — проверьте свой набор данных. Если потери колеблются в широких пределах, это означает, что ваша скорость обучения слишком высока.

Оценка успеха

Появляется каждые 5 тысяч шагов (требуется физическая рука или сим). Это число, которое действительно имеет значение. Перед развертыванием вам нужно, чтобы это значение превышало 70%. Часто это отстает от потерь на обучении — потери могут выглядеть хорошо, в то время как уровень успеха все еще улучшается.

Действия МСЭ

Среднеквадратическая ошибка между предсказанными и фактическими действиями. Должно упасть ниже 0,01 для хорошо обученной политики выбора и размещения. Высокое значение MSE после 80 тысяч шагов означает, что модель не справляется со сложностью задачи или ваши данные противоречивы.

Дивергенция KL (специфично для ACT)

ACT использует CVAE с весом KL, который изменяется от 0 до 10 во время обучения. Следите за этой стабилизацией около шага 40к. Если он никогда не сходится, модель не может закодировать стиль — попробуйте добавить больше данных.

Когда прекратить обучение

Не стоит просто бежать до 100 тысяч шагов и останавливаться. Используйте эти сигналы, чтобы решить, когда ваша контрольно-пропускная точка будет готова к развертыванию:

Уровень успешности оценки стабилизировался в течение 3 последовательных оценок — модель сошлась. Дальнейшее обучение не поможет без дополнительных или других данных.
Вероятность успеха оценки превышает 70 %. — это порог развертывания шестого энергоблока. Если вы достигнете 70% за 60 тысяч шагов, вы можете остановиться раньше и развернуть эту контрольную точку.
Потери при обучении все еще уменьшаются, но оценка остается неизменной или снижается. — модель переоснащается. Пройдите последнюю контрольную точку, где оценка была на пике. Это лучший КПП.
После 100 тысяч шагов — если вероятность успеха ниже 40%, вернитесь к блоку 4. На этом этапе проблема с данными более вероятна, чем проблема с обучением.

Дополнительное глубокое погружение

За пределами ACT — политика распространения и π₀

Если у вас есть работающая политика ACT, следующим естественным экспериментом станет политика распространения. Он лучше справляется с мультимодальными задачами (например, рука может приближаться к объекту под двумя углами) за счет более медленного вывода. Раздел исследований SVRC охватывает оба направления. Просмотреть исследовательские статьи →

Глава 5 завершена, когда...

Обучение завершено (или вы остановили его на хорошей контрольной точке). Ваш показатель успеха при выполнении задачи по выбору и размещению превышает 70 %. У вас есть сохраненная контрольная точка в ~/openarm-policies/pick-and-place-v1/ и вы знаете, какой номер шага принес вам лучший результат. Вы готовы применить эту политику на реальной руке в Блоке 6.