Обучение роботов

Объяснение политики ACT: разделение действий с помощью трансформаторов для обучения роботов

ACT — Action Chunking with Transformers — стал одним из наиболее широко распространенных алгоритмов обучения имитации ловких манипуляций после его публикации Тони Чжао и его коллегами из Стэнфорда. Вот практическое объяснение того, как это работает и как его использовать.

Что такое АКТ?

ACT — это алгоритм обучения имитации, разработанный для задач мелкомасштабного манипулирования, когда робот должен совершать плавные, скоординированные движения на основе визуальных наблюдений. Во время вывода ACT берет последовательность изображений с камер робота и текущего состояния сустава и выводит фрагмент будущих действий — короткую последовательность целей совместного положения — а не одно следующее действие. Робот выполняет этот фрагмент, а затем повторно запрашивает политику для следующего фрагмента. Этот дизайн с прогнозированием на много шагов вперед является определяющей особенностью ACT и источником большинства его преимуществ по сравнению с более простым клонированием поведения.

ACT был представлен в контексте системы бимануальных манипуляций ALOHA и продемонстрировал успех в решении задач, которые ранее считались недоступными для имитационного обучения: вставление батарейки, открытие пакета с застежкой-молнией, вдевание нити в иголку. Его основная идея — то, что прогнозирование действий по частям уменьшает ошибки суммирования и сглаживает траектории — с тех пор была принята во многих последующих алгоритмах.

Как работает разделение действий

Клонирование стандартного поведения (BC) обучает политику прогнозированию следующего отдельного действия с учетом текущего наблюдения. Во время вывода накапливаются ошибки прогнозирования: каждая небольшая ошибка слегка меняет состояние робота, помещая его в распределение, на котором политика не обучалась, что приводит к тому, что следующий прогноз будет хуже и так далее. Эта сложная ошибка является основной причиной неудач наивного BC при выполнении тонких задач манипулирования.

Разделение действий разрывает этот цикл, предсказывая последовательность из k будущих действий — обычно 50–100 шагов с частотой 50 Гц, что соответствует 1–2 секундам движения. Политика фиксирует этот план и выполняет его перед повторным запросом. Поскольку план был создан на основе одного последовательного наблюдения, траектория является плавной и внутренне последовательной. Временное объединение — усреднение перекрывающихся фрагментов действий из нескольких повторных запросов — еще больше сглаживает выполнение и уменьшает дрожание на границах между фрагментами.

АСТ Архитектура

ACT использует архитектуру CVAE (условно-вариационный автоэнкодер). Во время обучения кодировщик обрабатывает всю траекторию демонстрации — изображения, состояния суставов и действия — и создает скрытую переменную стиля z, которая фиксирует «стиль» демонстрации (быстрый или медленный подход, подход с левым или правым наклоном и т. д.). Затем декодер на основе преобразователя берет текущее наблюдение, скрытое значение z и позиционные кодировки и прогнозирует фрагмент действия. Во время вывода z устанавливается равным нулю (среднее априорное значение), что делает политику детерминированной с учетом наблюдения.

Основой видения обычно является ResNet-18, который обрабатывает изображение каждой камеры независимо, а полученные карты функций передаются в качестве токенов в декодер преобразователя. Несколько изображений с камер — наручные камеры и верхние камеры — каждая из них вносит поток токенов, предоставляя политике обширную пространственную информацию о месте манипуляции.

Требования к данным и что считать хорошими данными

В большинстве опубликованных результатов ACT хорошо работает при 50–200 демонстрациях на одно задание. Однако качество данных имеет большее значение, чем количество. Демонстрации должны быть плавными и целенаправленными — политика ACT будет изучать любые закономерности движения в данных, включая колебания, поправки и неоптимальные подходы. SVRC стандарт сбора данных требует от операторов перезапустить эпизод, а не продолжать его после видимой ошибки, гарантируя, что набор обучающих данных содержит только преднамеренное и успешное поведение.

Согласованность камеры также имеет решающее значение. Если размещение камеры меняется между сеансами записи, визуальные функции, изученные политикой, больше не будут соответствовать настройке развертывания. Используйте физические крепления, а не гибкие кронштейны, и записывайте параметры калибровки камеры в каждый набор данных. Конвейер многокамерной записи SVRC обеспечивает это автоматически.

ACT против клонирования поведения: результаты

При выполнении первоначальных задач ALOHA ACT достиг показателей успеха 80–95% по сравнению с 20–50% для стандартного BC на тех же данных. Улучшение наиболее заметно при выполнении задач, требующих точного расчета времени, плавной координации действий двух рук и плавного восстановления после небольших возмущений. При выполнении более простых задач по сбору и размещению с щадящими допусками разрыв между ACT и BC сокращается. ACT также превосходит политику диффузии в задачах, где скорость выполнения имеет значение, поскольку политики на основе диффузии требуют большего количества вычислений на шаг вывода.

Обучение ACT с данными SVRC

SVRC платформа данных экспортирует наборы данных в формат HDF5, совместимый с LeRobot, который является стандартным входным форматом для обучающего кода ACT с открытым исходным кодом. После загрузки набора данных для обучения базовой политике ACT требуется графический процессор с видеопамятью не менее 16 ГБ и примерно 8 часов обучения для одной задачи. Доступна инженерная поддержка SVRC, которая поможет командам настроить обучающие прогоны, настроить размер блоков и скорость обучения, а также оценить эффективность политики. Информацию об оборудовании для сбора ваших собственных данных см. в нашем каталог оборудования или исследовать варианты аренды роботов.