Выполнение вывода на реальной руке
Развертывание означает запуск обученной контрольной точки в режиме реального времени, передачу данных с камеры в реальном времени и совместных наблюдений в сеть и выполнение выходных действий на физическом манипуляторе. Сценарий вывода обрабатывает цикл наблюдения-действия с частотой 50 Гц.
При первом запуске держите руку рядом с физическим аварийным остановом. Недавно развернутая политика может иногда совершать неожиданные изменения, пока она приближается к реальной аппаратной среде. Это нормально для первых 2–3 серий. После этого поведение должно стабилизироваться.
Подробное руководство по развертыванию и производству, включая защитные оболочки и сторожевые таймеры, см. Руководство по производству OpenArm.
Методология оценки
Не оценивайте свою политику неформально. Используйте структурированный протокол — это единственный способ узнать, действительно ли внесенное вами изменение (больше данных, другая контрольная точка, другое построение задач) действительно улучшило производительность:
| Элемент протокола | Спецификация |
|---|---|
| Количество эпизодов на оценку | Минимум 10, 20 для результатов с высокой достоверностью |
| Начальная позиция объекта | Зафиксированный. Используйте отметки скотчем. Одна и та же позиция в каждой серии. |
| Тип объекта | Та же цель, что и обучение. Освещение должно соответствовать условиям тренировок. |
| Что считается успехом | Объект помещен в пределах 3 см от цели. Рука возвращается домой. Никакого человеческого вмешательства во время эпизода. |
| Классификация отказов | Тип ошибки журнала: пропущенный захват/выпавший предмет/неправильная цель/тайм-аут. Это подскажет вам, что исправить. |
| Показатель отчета | Уровень успеха = успешные эпизоды / общее количество эпизодов. Отчет с указанием количества эпизодов (например, «7/10 = 70%»). |
Маховик данных: как стать лучше
Политика, которая успешна в 7/10 раз, является хорошим началом, но путь к 9/10 или выше лежит через маховик данных. Это основной цикл обучения роботов на производстве:
Собирать
Записывайте демонстрации, включая случаи неудач, с которыми сталкивается ваша текущая политика.
Тренироваться
Переобучите (или настройте) свой расширенный набор данных с добавлением новых демонстраций.
Оценивать
Запустите структурированный протокол оценки. Улучшился ли процент успеха? Какие виды отказов остаются?
Анализировать
Посмотрите видео неудач. Определите конкретное государство, в котором политика дает сбой. Соберите там целевые данные.
Ключевое понимание маховика: целевые данные лучше случайных данных. Вместо того, чтобы записывать еще 50 случайных демонстраций, посмотрите видео своих неудач и определите точный момент, когда что-то идет не так. Запишите 20 демонстраций, которые конкретно охватывают это сложное состояние (например, захват края рабочего пространства или предмет под необычным углом). Ваш успех улучшится быстрее с 20 целевыми демонстрациями, чем с 50 случайными.
Распространенные виды отказов и способы их устранения
- Рука выходит за пределы позиции захвата: Блоки действий политики слишком велики, или ваши данные имеют высокую дисперсию скорости. Запишите еще 10 демо на медленной скорости рядом с точкой захвата. Или уменьшить
chunk_sizeот 100 до 50 в тренировочном конфиге. - Рука успешно справляется с тренировочным объектом, но терпит неудачу на несколько других объектах: В ваших обучающих данных не хватало разнообразия положений объектов. Запишите 20 демонстраций с объектом в 5 разных положениях в радиусе 10 см. Это учит политику обобщать.
- Политика замораживает или выдвигает повторяющиеся предложения: Переменная стиля CVAE сворачивается. Это часто означает, что ваш набор данных слишком сильно варьируется — модель не может найти единый стиль. Проверьте наличие смешанных демонстраций (разные операторы, разные рамки задач) и очистите свой набор данных.
Глава 6 завершена, когда...
Ваша рука самостоятельно выполняет задачу захвата и размещения 7 из 10 раз в ходе структурированной оценки. Вы просмотрели три видеоролика о сбоях и определили, что пошло не так. Вы достаточно хорошо понимаете маховик данных, чтобы спланировать следующую итерацию улучшения. Это конец структурированного пути, но это начало вашей практики обучения роботов.
Что дальше
У вас есть фундамент. Вот куда идти дальше: