Модуль 6: Развертывание и улучшение — Путь обучения OpenArm

Выполнение вывода на реальной руке

Развертывание означает запуск обученной контрольной точки в режиме реального времени, передачу данных с камеры в реальном времени и совместных наблюдений в сеть и выполнение выходных действий на физическом манипуляторе. Сценарий вывода обрабатывает цикл наблюдения-действия с частотой 50 Гц.

источник ~/openarm-env/bin/activate

# Make sure ROS 2 is running (real hardware mode, from Unit 1)

python -m lerobot.scripts.eval \ --policy-checkpoint ~/openarm-policies/pick-and-place-v1/checkpoint_XXXXX \ --устройство куда\ --num-eval-эпизоды 10 \ --запись-видео \ --output-dir ~/openarm-evals/v1

# Replace XXXXX with your best checkpoint step number from Unit 5
# --record-video saves each episode as an mp4 for review

При первом запуске держите руку рядом с физическим аварийным остановом. Недавно развернутая политика может иногда совершать неожиданные изменения, пока она приближается к реальной аппаратной среде. Это нормально для первых 2–3 серий. После этого поведение должно стабилизироваться.

Подробное руководство по развертыванию и производству, включая защитные оболочки и сторожевые таймеры, см. Руководство по производству OpenArm.

Методология оценки

Не оценивайте свою политику неформально. Используйте структурированный протокол — это единственный способ узнать, действительно ли внесенное вами изменение (больше данных, другая контрольная точка, другое построение задач) действительно улучшило производительность:

Элемент протокола	Спецификация
Количество эпизодов на оценку	Минимум 10, 20 для результатов с высокой достоверностью
Начальная позиция объекта	Зафиксированный. Используйте отметки скотчем. Одна и та же позиция в каждой серии.
Тип объекта	Та же цель, что и обучение. Освещение должно соответствовать условиям тренировок.
Что считается успехом	Объект помещен в пределах 3 см от цели. Рука возвращается домой. Никакого человеческого вмешательства во время эпизода.
Классификация отказов	Тип ошибки журнала: пропущенный захват/выпавший предмет/неправильная цель/тайм-аут. Это подскажет вам, что исправить.
Показатель отчета	Уровень успеха = успешные эпизоды / общее количество эпизодов. Отчет с указанием количества эпизодов (например, «7/10 = 70%»).

Маховик данных: как стать лучше

Политика, которая успешна в 7/10 раз, является хорошим началом, но путь к 9/10 или выше лежит через маховик данных. Это основной цикл обучения роботов на производстве:

Собирать

Записывайте демонстрации, включая случаи неудач, с которыми сталкивается ваша текущая политика.

Тренироваться

Переобучите (или настройте) свой расширенный набор данных с добавлением новых демонстраций.

Оценивать

Запустите структурированный протокол оценки. Улучшился ли процент успеха? Какие виды отказов остаются?

Анализировать

Посмотрите видео неудач. Определите конкретное государство, в котором политика дает сбой. Соберите там целевые данные.

Ключевое понимание маховика: целевые данные лучше случайных данных. Вместо того, чтобы записывать еще 50 случайных демонстраций, посмотрите видео своих неудач и определите точный момент, когда что-то идет не так. Запишите 20 демонстраций, которые конкретно охватывают это сложное состояние (например, захват края рабочего пространства или предмет под необычным углом). Ваш успех улучшится быстрее с 20 целевыми демонстрациями, чем с 50 случайными.

Распространенные виды отказов и способы их устранения

Рука выходит за пределы позиции захвата: Блоки действий политики слишком велики, или ваши данные имеют высокую дисперсию скорости. Запишите еще 10 демо на медленной скорости рядом с точкой захвата. Или уменьшить chunk_size от 100 до 50 в тренировочном конфиге.
Рука успешно справляется с тренировочным объектом, но терпит неудачу на несколько других объектах: В ваших обучающих данных не хватало разнообразия положений объектов. Запишите 20 демонстраций с объектом в 5 разных положениях в радиусе 10 см. Это учит политику обобщать.
Политика замораживает или выдвигает повторяющиеся предложения: Переменная стиля CVAE сворачивается. Это часто означает, что ваш набор данных слишком сильно варьируется — модель не может найти единый стиль. Проверьте наличие смешанных демонстраций (разные операторы, разные рамки задач) и очистите свой набор данных.

Глава 6 завершена, когда...

Ваша рука самостоятельно выполняет задачу захвата и размещения 7 из 10 раз в ходе структурированной оценки. Вы просмотрели три видеоролика о сбоях и определили, что пошло не так. Вы достаточно хорошо понимаете маховик данных, чтобы спланировать следующую итерацию улучшения. Это конец структурированного пути, но это начало вашей практики обучения роботов.

Вы сделали это.

Вы прошли путь от распаковки робота до обучения и внедрения настоящей политики имитационного обучения. Это ставит вас впереди 99% людей, которые когда-либо прикасались к руке робота. То, что вы здесь создали — настройки телеоперации, конвейер данных, рабочий процесс обучения — масштабируется для любой задачи и любого оборудования.

Что дальше

У вас есть фундамент. Вот куда идти дальше:

Развертывание и улучшение