Имитационное обучение для роботов: практическое руководство

Обучение с имитацией стало доминирующей парадигмой обучения роботов навыкам ловких манипуляций. Вместо того, чтобы вручную создавать функции вознаграждения или писать планы движений, вы просто показываете роботу, что делать. В этом руководстве объясняется, как это работает, какие алгоритмы использовать и какая инфраструктура вам нужна для получения результатов.

Что такое имитационное обучение?

Обучение с имитацией (IL), также называемое обучением на демонстрации (LfD) или поведенческим клонированием, обучает политику воспроизведению действий, полученных от человека-оператора. Во время сбора данных опытный демонстратор телеоперирует робота при выполнении целевой задачи, в то время как датчики записывают положения суставов, позы рабочих органов, кадры камеры и любое другое соответствующее состояние. Эти записанные данные становятся обучающим набором для политики нейронной сети.

Преимущество ИЛ по сравнению с обучением с подкреплением практично: вам не нужно разрабатывать сигнал вознаграждения, запускать миллионы смоделированных развертываний или решать проблему исследования с редким вознаграждением. Если человек может выполнить задачу, робот потенциально может научиться ей, проведя от нескольких сотен до нескольких тысяч демонстраций. Проблема заключается в обобщении: политики, обученные на узких демонстрациях, могут потерпеть неудачу, если положение объектов, освещение или варианты задач отличаются от обучающего распределения.

Современные исследования ИГ решают эту проблему посредством более совершенных архитектур, более крупных и разнообразных наборов данных и предварительно обученных визуальных представлений. С 2023 года эта область быстро развивается, и теперь обучение имитации производственного качества доступно командам, не имеющим доступа к докторской программе по робототехнике.

АКТ: Разделение действий с помощью трансформеров

ACT, представленный вместе с платформой бимануального робота ALOHA из Стэнфорда, рассматривает управление роботом как задачу прогнозирования последовательности. Политика прогнозирует часть будущих действий — обычно 50–100 временных шагов — а не одно следующее действие. Такое разделение действий уменьшает совокупную ошибку, которая является основной причиной отказа наивного поведенческого клонирования, когда небольшие ошибки прогнозирования накапливаются по траектории.

ACT использует CVAE (условно-вариационный автоэнкодер) во время обучения, чтобы уловить мультимодальность человеческих демонстраций — тот факт, что часто существует более одного правильного способа выполнения задачи. Во время вывода декодер генерирует последовательности действий, обусловленные текущими наблюдениями камеры и состоянием сустава. Результатом является политика, которая обрабатывает естественные вариации задач, демонстрируемых человеком, без артефактов усреднения режима.

ACT — отличная отправная точка для задач бимануального манипулирования. Для этого требуются относительно скромные объемы данных (50–200 демонстраций на задачу) и обучение на одном графическом процессоре занимает несколько часов. Если вы работаете с аппаратным обеспечением ALOHA или аналогичной биручной настройкой, ACT должен стать вашим первым алгоритмом, который стоит попробовать. SVRC услуги передачи данных включать предварительно обработанные наборы данных, совместимые с ACT, собранные на платформах класса ALOHA.

Политика распространения: обработка мультимодальных распределений действий

Политика распространения применяет модели диффузии с сопоставлением оценок — тот же класс моделей, который обеспечивает стабильную диффузию для изображений — в пространстве действий робота. Вместо того, чтобы предсказывать одно лучшее действие, политика изучает полное распределение действий, которые может предпринять человек-демонстратор. Во время вывода он запускает процесс шумоподавления для выборки высококачественного действия из этого распределения.

Ключевое преимущество перед ACT заключается в том, как он справляется с мультимодальными задачами: сценариями, в которых человек может схватить объект слева или справа или приблизиться к цели с нескольких допустимых углов. Стандартное поведенческое клонирование усредняет эти способы, создавая политику, которая идет по середине и терпит неудачу. Выборка политик распространения из правильного режима с учетом текущего контекста обеспечивает более надежное поведение при выполнении неоднозначных задач.

Компромисс — скорость вывода. Политика распространения с магистральной сетью UNet по умолчанию требует 100 шагов шумоподавления при выводе, что может быть слишком медленным для управления в реальном времени. Варианты пробоотборника DDIM и дистилляции по консистенции сокращают это число до 10–25 шагов, что делает возможным работу в режиме реального времени. Что касается требований к данным, политика распространения обычно выигрывает от большего количества демонстраций, чем ACT, но поощряет разнообразие наборов данных больше, чем простое количество.

Модели «Видение-Язык-Действие»: ИГ в масштабе

VLA, такие как OpenVLA, pi0 и RT-2, расширяют имитационное обучение за счет предварительного обучения на визуальных и языковых данных в масштабе Интернета перед точной настройкой на демонстрациях роботов. Предварительно обученная магистраль обеспечивает богатое представление объектов, сцен и взаимосвязей, которое отлично подходит для манипулирования роботами. Для точной настройки требуется гораздо меньше демонстраций, чем для обучения с нуля — иногда всего 10–50 примеров для конкретных задач.

Для команд, которые могут позволить себе требования к вычислительным ресурсам и лицензированию, VLA представляют собой современный уровень производительности IL. Они лучше обобщаются к новым объектам, новым средам и вариантам задач, зависящим от языка. SVRC обеспечивает точную настройку наборов данных и инфраструктура телеоперации совместим с форматами данных, ожидаемыми основными конвейерами обучения VLA. Посмотрите наш Объяснение моделей VLA для более глубокого технического разбора.

Требования к данным для имитационного обучения

Минимальный жизнеспособный набор данных для одной задачи манипуляции обычно составляет 50 демонстраций для ACT, 100–200 для политики распространения и 20–50 для тонкой настройки VLA. Это оценки пола при благоприятных условиях — постоянном освещении, фиксированных точках обзора камеры и объектах в предсказуемых положениях. Реальное развертывание требует в 3–5 раз больше данных, чтобы охватить вариации, с которыми ваша система столкнется в рабочей среде.

Качество данных имеет такое же значение, как и количество. Демонстрационные материалы должны собираться опытными операторами, которые выполняют задачу последовательно и чисто. Неудачные попытки, колебания и исправления, которые входят в обучающую выборку как успешные, приведут к снижению эффективности политики. SVRC служба управляемого сбора данных предоставляет обученных операторов, отбор эпизодов с фильтрацией по качеству и упаковку структурированных наборов данных, что экономит вашей команде инженеров недели работы над конвейером данных.

Разнообразие датчиков также важно. Политики, обученные на одной наручной камере, часто дают сбой, когда эта камера закрыта. Лучше всего собирать данные как минимум с двух точек обзора камеры — одной с фиксированного вида сверху или сбоку и одной, установленной на запястье, — и включать проприоцептивное состояние (углы и скорости суставов) наряду с визуальными наблюдениями.

Аппаратное обеспечение и инфраструктура для исследований ИЛ

Минимальный аппаратный стек для исследовательского проекта по имитационному обучению включает в себя: роботизированную руку с достаточной степенью свободы для вашей задачи (не менее 6 степеней свободы для общих манипуляций), систему телеуправления «лидер-последователь» или на базе виртуальной реальности для сбора данных, две или более камер и рабочую станцию ​​как минимум с одним графическим процессором NVIDIA (RTX 3090 или лучше для ACT/Diffusion Policy; для тонкой настройки VLA рекомендуется A100 или H100).

SVRC каталог оборудования включает платформу OpenArm, которая поставляется с совместимым ведущим рычагом телеуправления и монтажным оборудованием для стандартных конфигураций камер. Платформа SVRC обеспечивает уровень программного обеспечения: запись эпизодов, управление наборами данных, конвейеры обучения политике и инструменты оценки. Команды могут арендовать, а не покупать оборудование для краткосрочных проектов через программа лизинга роботов, что часто является самым быстрым путем к работающему прототипу IL.

Для команд, которые хотят начать с данных, прежде чем инвестировать в оборудование, SVRC предлагает доступ к тщательно подобранным многозадачным демонстрационным наборам данных, собранным на нашем предприятии в Пало-Альто. Эти наборы данных охватывают общие примитивы манипуляций — сбор, размещение, заливку, складывание, сборку — и отформатированы для непосредственного использования с ACT, Diffusion Policy и Hugging Face LeRobot. Свяжитесь с нашей командой обсудить варианты доступа к набору данных.

Связанный: Объяснение моделей VLA · Политика распространения обучения роботов · Руководство по роботам ALOHA · Службы передачи данных · Что такое данные обучения роботов?