Робот ALOHA: что это такое, как он работает и с чего начать

ALOHA — это платформа двуручного телеуправления от Стэнфордского университета, которая впервые продемонстрировала, что робот может научиться выполнять ловкие манипуляции двумя руками — например, открывать пакет с чипсами, связывать кабель или готовить — на основе небольшого количества человеческих демонстраций. Сейчас это самая популярная платформа для бимануальных исследований в мире. В этом руководстве объясняется, что такое ALOHA, как он работает и как начать его использовать.

Стэнфордская история происхождения

ALOHA — недорогая аппаратная система с открытым исходным кодом для бимануальной телеоперации — была разработана в Стэнфордской лаборатории мобильных манипуляций и опубликована в статье Тони З. Чжао и др. «Изучение мелкозернистой бимануальной манипуляции с помощью недорогого оборудования». в 2023 году. Центральный тезис был провокационным: вам не нужно дорогостоящее фирменное роботизированное оборудование, чтобы выполнять впечатляющие и ловкие манипуляции. ALOHA использовала четыре робота-манипулятора ViperX 300 и WidowX 250 (по два с каждой стороны, один в качестве ведущего для дистанционного управления и один в качестве ведомого) общей стоимостью менее 20 000 долларов США в сочетании с алгоритмом ACT для выполнения задач, которые ранее требовали специально разработанных систем, стоивших во много раз дороже.

В документе были продемонстрированы 10 задач, выполняемых бимануально, включая разворачивание конфеты, вставку батарейки в слот и продевание веревки в отверстие — все с вероятностью успеха более 80% при использовании 50 демонстраций. Эти результаты шокировали сообщество робототехники не потому, что задачи были новыми, а из-за стоимости и эффективности данных. ALOHA и ACT вместе установили новый стандарт для доступных исследований ловких манипуляций и спровоцировали волну последующих работ, которая продолжается и сегодня.

Аппаратная конструкция ALOHA и все программное обеспечение полностью открыты. Спецификация, инструкции по сборке и учебный код ACT общедоступны на GitHub. Эта открытость сделала ALOHA де-факто стандартной бимануальной исследовательской платформой, где десятки исследовательских групп по всему миру используют варианты оригинальной разработки. SVRC поддерживает платформы класса ALOHA через нашу услуги передачи данных и программа лизинга оборудования.

Аппаратная архитектура: двуручная настройка лидера-последователя

Система ALOHA состоит из двух кинематических пар, по одной на каждое плечо. У каждой пары есть «ведущая» рука — легкая рука с обратным приводом, которую оператор держит и перемещает руками, — и «ведомая» рука, которая отражает положение суставов ведущего в реальном времени. Следящая рука несет в себе настоящий манипулятор (захват, инструмент или рабочий орган) и взаимодействует с физическим миром. У ведущего рычага нет требований к полезной нагрузке рабочего органа, поскольку он должен иметь только обратный ход и обеспечивать обратную связь по крутящему моменту оператору.

Бимануальная конфигурация — две полные пары «лидер-ведомый» — это то, что делает ALOHA уникальной способностью решать сложные задачи. Человеческие руки по своей природе двуручны: одна рука держит объект, а другая манипулирует им, или обе руки взаимодействуют для выполнения задачи, требующей двух одновременных точек контакта. Однорукие роботы могут выполнять эти задачи только с помощью сложных приспособлений или последовательности действий; бимануальные роботы могут обрабатывать их напрямую. Форм-фактор ALOHA, в котором оба кронштейна установлены на общем креплении стола, оптимизирован для настольных манипуляций, когда оператор сидит перед системой.

В оригинальной статье ALOHA использовались три камеры: одна верхняя (вид всего рабочего пространства с высоты птичьего полета), одна на левом запястье и одна на правом запястье. Все три камеры используются для визуального наблюдения в рамках политики ACT. Такая установка с несколькими изображениями имеет решающее значение: камеры на запястьях обеспечивают крупный план захвата и контакта, а верхняя камера обеспечивает глобальный контекст для координации двух рук. Варианты ALOHA с одной камерой демонстрируют заметно более низкую производительность при выполнении задач, требующих координации.

ДЕЙСТВИЕ: Алгоритм ALOHA

ACT (Action Chunking with Transformers) был разработан вместе с ALOHA и является основным алгоритмом обучения для платформы. ACT — это политика имитационного обучения на основе трансформатора, которая прогнозирует часть будущих положений суставов — обычно 100 временных шагов с частотой 50 Гц, охватывающих 2 секунды движения, — а не одно следующее действие. Эта архитектура фрагментирования действий существенно уменьшает проблему сложных ошибок, возникающую при наивном поведенческом клонировании, когда небольшие ошибки прогнозирования на каждом временном шаге накапливаются в большие отклонения траектории в ходе выполнения задачи.

Архитектура политики ACT использует кодировщик CVAE (условно-вариационный автоэнкодер) во время обучения, чтобы фиксировать скрытый стиль каждой демонстрации — по сути, сжатое представление того, «как» человек выполнил задачу, отличное от того, «каким» был результат задачи. Это позволяет политике моделировать естественные вариации человеческих демонстраций без артефактов усреднения мод. Во время вывода запускается только декодер CVAE, зависящий от текущего наблюдения и выбранного скрытого вектора, для генерации фрагмента действия.

Обучение ACT на наборе данных ALOHA с 50 демонстрациями на задачу занимает 2–4 часа на одном графическом процессоре RTX 3090. Обучающий код, выпущенный вместе с оригинальной статьей, легко запускать с документированными гиперпараметрами для стандартных задач ALOHA. Для пользовательских задач наиболее важным гиперпараметром для настройки является размер фрагмента (kl_weight в конфигурации) — более крупные фрагменты улучшают временную согласованность за счет реакции на неожиданные возмущения. SVRC платформа включает предварительно настроенные конвейеры обучения ACT для наборов данных в формате ALOHA.

Мобильная ALOHA: снимаем ALOHA со стола

Mobile ALOHA, опубликованная той же Стэнфордской группой в 2024 году, расширила концепцию ALOHA до мобильной базы. Установка бимануального манипулятора была установлена ​​на мобильной базе AgileX Tracer, что позволяло системе перемещаться в разные места в пространстве — приближаясь к кухонной стойке, перемещаясь к обеденному столу, перемещаясь по коридору, — сохраняя при этом манипуляторы ALOHA для манипуляций. Мобильная ALOHA продемонстрировала такие задачи, как приготовление креветок на плите, загрузка посудомоечной машины и доставка посылки — задачи, требующие как передвижения, так и ловких манипуляций.

Mobile ALOHA представила концепцию телеоперации всего тела: оператор управляет мобильной базой и двумя руками одновременно либо через отдельные интерфейсы управления, либо через единый интерфейс, который сопоставляет движения тела оператора с конфигурацией всего тела робота. Сбор данных для мобильного ALOHA значительно сложнее, чем для настольного ALOHA, поскольку политика должна научиться координировать навигацию и манипуляции, требуя демонстраций, охватывающих пространственные изменения в среде, а также изменения объектов.

Mobile ALOHA также ввела совместное обучение: совместное обучение политике Mobile ALOHA на демонстрациях мобильных манипуляций и статических демонстрациях манипуляций ALOHA. Совместное обучение улучшило эффективность манипуляций на мобильной платформе, предполагая, что знания о бимануальных манипуляциях из настольных данных можно с пользой перенести в мобильный контекст. SVRC предлагает наборы данных, совместимые с Mobile ALOHA, и может собирать демонстрации мобильных манипуляций на нашем предприятии в Пало-Альто. Связаться с нами чтобы обсудить ваши требования к данным Mobile ALOHA.

Различия между ALOHA, ALOHA 2 и коммерческими производными

ALOHA 2, опубликованная в конце 2024 года, улучшила оригинал по нескольким направлениям: более качественные дужки с лучшей повторяемостью, улучшенная система крепления камеры и обновленная конструкция запястья, которая упрощает прокладку кабелей. Электрическая система также была обновлена ​​и теперь использует специальный распределительный щит вместо шлейфовых силовых кабелей, что повышает надежность во время длительных сеансов сбора данных. ALOHA 2 поддерживает полную совместимость программного обеспечения с оригиналом — наборы данных, собранные на одном из них, могут обучать политикам, оцениваемым на другом, с учетом обычных предостережений относительно аппаратных изменений.

Несколько коммерческих поставщиков теперь продают ALOHA-совместимые платформы — предварительно собранные, протестированные системы, которые соответствуют механическим и программным спецификациям ALOHA, не требуя от производителя поиска компонентов и самостоятельной сборки оружия. Эти коммерческие системы ALOHA стоят дороже, чем стоимость материалов, сделанных своими руками, но существенно сокращают время установки и риск ошибок при сборке. Каталог оборудования SVRC включает конфигурации, совместимые с ALOHA; увидеть магазин текущие варианты и цены.

Начало работы с ALOHA через SVRC

SVRC поддерживает исследования на основе ALOHA на каждом этапе. Для команд, которые только начинают свою работу, мы предлагаем аренду платформы ALOHA через нашу программа лизинга роботов — доступ к полной двуручной настройке за фиксированную ежемесячную плату без капитальных вложений в приобретение оборудования. Арендованные системы поставляются предварительно откалиброванными и готовыми к проведению демонстраций в первый же день.

Для сбора данных наши управляемая услуга предоставляет обученных операторов ALOHA, которые могут собирать демонстрации на нашем предприятии в Пало-Альто, с наборами данных, поставляемыми в формате RLDS/LeRobot, совместимом с конвейерами обучения ACT, Diffusion Policy и OpenVLA. Наши операторы имеют опыт выполнения задач двуручной координации и следуют структурированным протоколам качества, которые обеспечивают более чистые наборы данных, чем обычно достигают начинающие исследователи. Мы также можем посетить ваш сайт для проведения кампаний по сбору данных на месте, если этого требует ваша задача.

Для обучения и оценки политики Платформа SVRC предоставляет предварительно настроенные конвейеры обучения ACT, инструменты отслеживания экспериментов и оценки для политик ALOHA. Наш ориентиры включать оценки задач, специфичные для ALOHA, которые позволяют сравнивать эффективность вашей политики с эталонными реализациями. Независимо от того, создаете ли вы программу исследования бимануальных манипуляций с нуля или пытаетесь повысить производительность существующей системы, команда компании SVRC может помочь вам спланировать правильный подход.

Связанный: Имитационное обучение для роботов · Объяснение моделей VLA · Лизинг роботов · Службы передачи данных · Руководство по покупке манипулятора робота 2026 г.