Модуль 6: Запустите и улучшите свою бимануальную политику — Путь обучения DK1

Настройка вывода для двух рук

Бимануальный вывод запускает единую сеть политик, которая выводит действия для обеих сторон одновременно. Цикл наблюдения-действия работает на частоте 50 Гц — той же частоте, что и ваши тренировочные данные — при этом оба ведомых рычага синхронно выполняют соответствующие фрагменты действий.

источник ~/dk1-env/bin/activate

# Keep your hand near the E-stop for the first 3 evaluation episodes

python -m lerobot.scripts.eval \ --policy-checkpoint ~/dk1-policies/cube-handoff-v1/checkpoint_XXXXX \ --robot-path ~/dk1-config.yaml \ --robot-type dk1_bimanual \ --устройство куда\ --num-eval-эпизоды 10 \ --запись-видео \ --output-dir ~/dk1-evals/v1

# Replace XXXXX with your best checkpoint step (from Unit 5 loss curve analysis)
# --record-video saves both arm views as separate mp4 files for failure analysis

При первом запуске оценки разрешите выполнение политики без перерыва, если физический конфликт не является неизбежным. Бимануальная политика часто приводит к неожиданным движениям в первые 1–2 эпизода по мере адаптации к реальной среде. Эпизоды 3–10 представляют собой значимые данные оценки. Обратите внимание, последовательно ли политика достигает одних и тех же этапов задачи (приближение, понимание, передача, место, домой), даже если она в конечном итоге терпит неудачу — частичный успех является диагностической информацией.

Протокол бимануальной оценки

Используйте структурированный протокол. Неофициальная оценка – «похоже, что это работает» – ненадежна для двуручной политики, поскольку частичный успех встречается гораздо чаще и может маскировать фундаментально нарушенную передачу власти.

Элемент протокола	Бимануальная спецификация
Количество серий	10 минимум; 20 для получения результатов с высокой степенью достоверности перед добавлением дополнительных данных.
Начальная позиция куба	Фиксированное, отмеченное лентой положение — такое же, как и в вашей тренировочной установке в Блоке 4.
Освещение	Должны соответствовать условиям обучения. Даже открытие окна может изменить освещение настолько, что это повлияет на камеру рабочего места.
Что считается полным успехом	Куб начинается с правой стороны, заканчивается слева, обе руки возвращаются в исходную позу, во время эпизода нет контакта с людьми.
Что считается частичным успехом	Достигнут правильный захват, но передача не удалась, или передача успешна, но размещение не соответствует цели. Запишите их отдельно.
Классификация отказов	Протокол: (A) ошибка захвата, (B) ошибка передачи управления — падение передачи из руки в руку, (C) ошибка размещения, (D) тайм-аут. Категория отказа переключения (B) уникальна для бимануального режима и наиболее информативна для улучшения.
Показатель отчета	Полный процент успеха (эпизоды со всеми 4 фазами верны). Также сообщите о частичном успехе. Пример: «4/10 заполнены, 7/10 достигли фазы передачи обслуживания».

Распространенные виды отказов при биручном управлении

Эти режимы сбоев отличаются от сбоев с одним плечом и требуют исправлений, выполняемых вручную:

Оружие поступает в точку передачи асинхронно: Одна рука достигает положения передачи и ждет; другой приходит поздно. Политика не усвоила относительные сроки между вооружениями. Исправление: добавьте 20 демонстраций, в которых обе руки явно останавливаются в точке передачи на 1–2 секунды перед завершением передачи. Это делает требование синхронизации явным в данных.
Handoff drop — куб падает между двумя плечами: Наиболее распространенная специфичная для бимануала неисправность. Принимающая рука закрывает захват слишком рано или слишком поздно относительно отпускания дающей руки. Исправление: соберите 15 демонстраций замедленной передачи управления, особенно на скорости 25%. Преувеличенное время дает политике более четкий сигнал о последовательности перехода состояний захвата.
Политика сходится к единоличной стратегии: Политика учится выполнять задачу только одной рукой, игнорируя возможности другой руки. Это происходит, когда демонстрации одной рукой более последовательны, чем другой. Исправление: просмотрите ошибки действий каждой руки на тренировочных кривых (блок 5) и соберите дополнительные демонстрационные данные, специально ориентированные на фазы более слабой руки.
Столкновение между руками: Оба оружия пытаются занять одно и то же рабочее пространство. Это событие безопасности — включите предотвращение столкновений на аппаратном сервере DK1 (collision_avoidance: true в dk1-config.yaml) во время оценки. Обучение на демонстрациях, которые последовательно соблюдают безопасное разделение рук, позволит предотвратить большинство столкновений; защита аппаратного уровня обрабатывает крайние случаи.
Фазовая десинхронизация при развертывании: Политика выполняет правильные действия, но не в правильном временном порядке — например, правая рука размещается раньше, чем левая рука перемещается. Это артефакт фрагментирования действий, при котором границы фрагментов не совпадают с фазовыми переходами задач. Исправлено: уменьшить chunk_size со 100 до 50 и переобучить.

Маховик данных для бимануального улучшения

Тот же цикл улучшения, который работает для единоличной политики, работает и для двухручной политики — с одним добавлением, специфичным для двухручного подхода: всегда ориентироваться на первый режим отказа в последовательности задач. Передача обслуживания (фаза B) не может быть улучшена, если захват (фаза A) все еще непостоянен. Исправьте сбои в порядке последовательности задач.

Оценивать

Пройти 10 серий. Классифицируйте каждый отказ по фазам (A/B/C/D).

Цель

Определите первую фазу отказа. Соберите 20–30 демонстраций, специально посвященных этому этапу.

Переподготовка

Добавьте целевые демонстрации в набор данных. Переобучайтесь с нуля или настройте лучшую контрольную точку

Оценивать

Запустите еще раз 10 серий. Улучшился ли полный показатель успеха? Переход к следующей фазе отказа.

Что дальше

Теперь у вас есть работающий конвейер бимануального обучения. Передача куба является основой — та же архитектура масштабируется для значительно более сложных задач:

Телеуправление с переменной скоростью

Адаптивное к скорости дистанционное управление для задач с большим количеством контактов, где обратная связь по усилию меняет оптимальную скорость движения.

Добавьте ловкие руки

Объедините руки DK1 с Orca Hand, чтобы обеспечить ловкость пальцев на уровне пальцев при выполнении задач, требующих точных манипуляций руками.

Масштабируйте свой набор данных

Методы масштабирования двуручного сбора данных по операторам, задачам и конфигурациям оборудования.

Поделитесь своими результатами

Опубликуйте свой уровень успеха, набор данных и политику на форуме DK1. Бимануальные результаты являются одними из самых ценных, которые собирает сообщество.

Глава 6 завершена, когда...

Ваш DK1 выполняет задачу передачи куба автономно с полным успехом не менее 6/10 при структурированном оценочном прогоне. Вы классифицировали все эпизоды сбоев по фазам (A/B/C/D) и определили, какая фаза ответственна за большинство сбоев. Вы посмотрели видео сбоев и можете конкретно сформулировать, что пошло не так. Вы достаточно хорошо понимаете работу бимануального маховика данных, чтобы спланировать следующую итерацию улучшения.

Вы создали работающую систему обучения бимануального робота.

Вы настроили архитектуру «лидер/ведомый», собрали синхронизированные демонстрации двух рук, обучили скоординированную политику с нуля и развернули ее на реальном оборудовании. Бимануальные манипуляции на этом уровне – это то, чем занимаются исследовательские лаборатории. Фундамент, который вы здесь заложили, рассчитан на сборку, приготовление пищи и задачи, связанные с контактами, которые были недоступны до того, как вы начали этот путь.