Настройка вывода для двух рук
Бимануальный вывод запускает единую сеть политик, которая выводит действия для обеих сторон одновременно. Цикл наблюдения-действия работает на частоте 50 Гц — той же частоте, что и ваши тренировочные данные — при этом оба ведомых рычага синхронно выполняют соответствующие фрагменты действий.
При первом запуске оценки разрешите выполнение политики без перерыва, если физический конфликт не является неизбежным. Бимануальная политика часто приводит к неожиданным движениям в первые 1–2 эпизода по мере адаптации к реальной среде. Эпизоды 3–10 представляют собой значимые данные оценки. Обратите внимание, последовательно ли политика достигает одних и тех же этапов задачи (приближение, понимание, передача, место, домой), даже если она в конечном итоге терпит неудачу — частичный успех является диагностической информацией.
Протокол бимануальной оценки
Используйте структурированный протокол. Неофициальная оценка – «похоже, что это работает» – ненадежна для двуручной политики, поскольку частичный успех встречается гораздо чаще и может маскировать фундаментально нарушенную передачу власти.
| Элемент протокола | Бимануальная спецификация |
|---|---|
| Количество серий | 10 минимум; 20 для получения результатов с высокой степенью достоверности перед добавлением дополнительных данных. |
| Начальная позиция куба | Фиксированное, отмеченное лентой положение — такое же, как и в вашей тренировочной установке в Блоке 4. |
| Освещение | Должны соответствовать условиям обучения. Даже открытие окна может изменить освещение настолько, что это повлияет на камеру рабочего места. |
| Что считается полным успехом | Куб начинается с правой стороны, заканчивается слева, обе руки возвращаются в исходную позу, во время эпизода нет контакта с людьми. |
| Что считается частичным успехом | Достигнут правильный захват, но передача не удалась, или передача успешна, но размещение не соответствует цели. Запишите их отдельно. |
| Классификация отказов | Протокол: (A) ошибка захвата, (B) ошибка передачи управления — падение передачи из руки в руку, (C) ошибка размещения, (D) тайм-аут. Категория отказа переключения (B) уникальна для бимануального режима и наиболее информативна для улучшения. |
| Показатель отчета | Полный процент успеха (эпизоды со всеми 4 фазами верны). Также сообщите о частичном успехе. Пример: «4/10 заполнены, 7/10 достигли фазы передачи обслуживания». |
Распространенные виды отказов при биручном управлении
Эти режимы сбоев отличаются от сбоев с одним плечом и требуют исправлений, выполняемых вручную:
- Оружие поступает в точку передачи асинхронно: Одна рука достигает положения передачи и ждет; другой приходит поздно. Политика не усвоила относительные сроки между вооружениями. Исправление: добавьте 20 демонстраций, в которых обе руки явно останавливаются в точке передачи на 1–2 секунды перед завершением передачи. Это делает требование синхронизации явным в данных.
- Handoff drop — куб падает между двумя плечами: Наиболее распространенная специфичная для бимануала неисправность. Принимающая рука закрывает захват слишком рано или слишком поздно относительно отпускания дающей руки. Исправление: соберите 15 демонстраций замедленной передачи управления, особенно на скорости 25%. Преувеличенное время дает политике более четкий сигнал о последовательности перехода состояний захвата.
- Политика сходится к единоличной стратегии: Политика учится выполнять задачу только одной рукой, игнорируя возможности другой руки. Это происходит, когда демонстрации одной рукой более последовательны, чем другой. Исправление: просмотрите ошибки действий каждой руки на тренировочных кривых (блок 5) и соберите дополнительные демонстрационные данные, специально ориентированные на фазы более слабой руки.
- Столкновение между руками: Оба оружия пытаются занять одно и то же рабочее пространство. Это событие безопасности — включите предотвращение столкновений на аппаратном сервере DK1 (
collision_avoidance: trueв dk1-config.yaml) во время оценки. Обучение на демонстрациях, которые последовательно соблюдают безопасное разделение рук, позволит предотвратить большинство столкновений; защита аппаратного уровня обрабатывает крайние случаи. - Фазовая десинхронизация при развертывании: Политика выполняет правильные действия, но не в правильном временном порядке — например, правая рука размещается раньше, чем левая рука перемещается. Это артефакт фрагментирования действий, при котором границы фрагментов не совпадают с фазовыми переходами задач. Исправлено: уменьшить
chunk_sizeсо 100 до 50 и переобучить.
Маховик данных для бимануального улучшения
Тот же цикл улучшения, который работает для единоличной политики, работает и для двухручной политики — с одним добавлением, специфичным для двухручного подхода: всегда ориентироваться на первый режим отказа в последовательности задач. Передача обслуживания (фаза B) не может быть улучшена, если захват (фаза A) все еще непостоянен. Исправьте сбои в порядке последовательности задач.
Оценивать
Пройти 10 серий. Классифицируйте каждый отказ по фазам (A/B/C/D).
Цель
Определите первую фазу отказа. Соберите 20–30 демонстраций, специально посвященных этому этапу.
Переподготовка
Добавьте целевые демонстрации в набор данных. Переобучайтесь с нуля или настройте лучшую контрольную точку
Оценивать
Запустите еще раз 10 серий. Улучшился ли полный показатель успеха? Переход к следующей фазе отказа.
Что дальше
Теперь у вас есть работающий конвейер бимануального обучения. Передача куба является основой — та же архитектура масштабируется для значительно более сложных задач:
Глава 6 завершена, когда...
Ваш DK1 выполняет задачу передачи куба автономно с полным успехом не менее 6/10 при структурированном оценочном прогоне. Вы классифицировали все эпизоды сбоев по фазам (A/B/C/D) и определили, какая фаза ответственна за большинство сбоев. Вы посмотрели видео сбоев и можете конкретно сформулировать, что пошло не так. Вы достаточно хорошо понимаете работу бимануального маховика данных, чтобы спланировать следующую итерацию улучшения.