Объяснение моделей «видение-язык-действие»: как VLA используются в современных роботах
Модели «зрение-язык-действие» — это роботизированный эквивалент GPT-4 — массивные предварительно обученные нейронные сети, которые можно точно настроить для выполнения широкого спектра физических задач. Понимание того, что такое VLA, как они работают и когда их использовать, теперь является важным знанием для любого серьезного специалиста по робототехнике.
Что такое модель «видение-язык-действие»?
Модель «зрение-язык-действие» (VLA) — это нейронная сеть, которая принимает визуальные наблюдения (изображения с камеры) и инструкции на естественном языке в качестве входных данных и выводит действия робота — скорость суставов, позы конечного исполнительного органа или команды захвата. Часть «видение-язык» относится к предварительно обученной магистрали: эти модели наследуют свое визуальное и семантическое понимание от крупномасштабного предварительного обучения в Интернете на парах изображение-текст, во многом подобно CLIP или модели визуального языка (VLM). «Действующая» часть — это голова точной настройки, обученная на демонстрационных данных робота.
Основная идея заключается в том, что предварительное обучение на интернет-данных дает скелету робота богатое представление о физическом мире — что представляют собой объекты, как они соотносятся в пространстве и что означает язык — еще до того, как он когда-либо увидит демонстрацию робота. Затем точная настройка адаптирует это представление к варианту реализации робота и целевым задачам. Поскольку позвоночник уже понимает «возьми синюю чашку» или «открой ящик слева», модель может быть обобщена на новые объекты и формулировки задач с гораздо меньшим количеством демонстраций, чем политика, обученная с нуля.
RT-2: первая крупномасштабная VLA
RT-2 (Robotics Transformer 2), выпущенный Google DeepMind в 2023 году, стал первой демонстрацией того, что масштабирование модели языка видения для управления роботом дает качественно новые возможности. RT-2 одновременно доработал модель языка видения PaLI-X для веб-данных и траекторий роботов, создав политику, которая могла бы следовать новым инструкциям, рассуждать о свойствах объектов и обобщать объекты, которые он никогда не видел в демонстрациях роботов — только в Интернете.
RT-2 показал, что VLA могут рассуждать по цепочке мыслей: когда ее попросили подобрать «что-то, что можно использовать для очистки разлива», модель идентифицировала губку с места происшествия, хотя ей даже не было явно сказано ассоциировать губки с уборкой. Эта возникающая способность — семантическое обобщение за пределами распределения обучения — является тем, что качественно отличает VLA от классической политики имитационного обучения. Компромисс является вычислительным: RT-2 работает на модели с 55 миллиардами параметров, для развертывания которой требуется значительная инфраструктура.
OpenVLA: точная настройка VLA с открытым исходным кодом
OpenVLA, выпущенная исследователями из Стэнфорда и Беркли в 2024 году, демократизировала тонкую настройку VLA, опираясь на Prismatic VLM с открытым исходным кодом (сама основанная на LLaMA) и обучая набору данных Open X-Embodiment — коллекции из 970 тысяч эпизодов демонстраций роботов из 22 различных вариантов реализации. OpenVLA — это отправная точка, которую сегодня использует большинство исследовательских групп, поскольку она имеет полностью открытый исходный код, хорошо документирована и обеспечивает высокую производительность в стандартных тестах манипуляции.
Для точной настройки OpenVLA для выполнения индивидуальной задачи требуется всего 50–200 демонстраций, набор данных, отформатированный в соответствии с соглашениями HuggingFace LeRobot, и один графический процессор A100 или H100 емкостью 80 ГБ для обучения продолжительностью несколько часов. Полученная в результате политика удивительно способна обобщать вариации сцен и новые положения объектов, не замеченные при обучении, благодаря предварительно обученной визуальной основе. SVRC служба сбора данных создает наборы данных в формате, совместимом с LeRobot, готовым к тонкой настройке OpenVLA «из коробки».
pi0: Общая политика физического интеллекта
pi0 из Physical Intelligence (pi.ai) представляет собой коммерческий рубеж разработки VLA. В отличие от OpenVLA, который наследует основу языковой модели, pi0 использует головку действия, согласующую поток, которая создает непрерывные, плавные траектории действий — больше подходящие для ловких задач, чем дискретные токенизированные действия. pi0 обучался на собственном наборе данных, состоящем из более чем 10 000 часов демонстрации роботов при выполнении десятков задач и аппаратных платформ.
Что отличает pi0 с архитектурной точки зрения, так это разделение между «медленным» путем речевого обусловленного мышления и «быстрым» путем реактивного управления моторикой. Это отражает идеи когнитивной науки о двухпроцессных системах управления. Медленный путь обрабатывает инструкцию задачи и текущую сцену для создания плана высокого уровня; быстрый путь генерирует двигательные команды с малой задержкой. Результатом является политика, которая может обрабатывать как долгосрочные рассуждения, так и высокочастотный реактивный контроль, открывая двери для таких задач, как складывание белья, где обе эти задачи необходимы одновременно.
Доступ к pi0 для коммерческого развертывания доступен через корпоративную программу Physical Intelligence. Для команд, изучающих архитектуры в стиле pi0, SVRC ориентиры включать оценки политик сопоставления потоков в стандартных пакетах манипуляций, что дает вам ориентир для ожидаемой производительности перед выполнением обучающего запуска.
Чем VLA отличаются от классической политики имитационного обучения
Классические политики IL — ACT, Diffusion Policy, BC-Z — полностью учатся на демонстрационных данных роботов. Их визуальные представления изучаются с нуля или с помощью узкоспециализированного кодировщика (например, R3M или MVP). Они хорошо обобщают результаты своего обучения, но с трудом справляются с новыми объектами, изменениями освещения или инструкциями по выполнению задач, которые перефразируют цель. Им также требуется больше демонстраций для достижения заданного уровня производительности, поскольку им не хватает семантического предварительного обучения, которое обеспечивает предварительное обучение.
VLA обменивают вычисления на обобщение. Классическая политика ACT для графического процессора стоит копейки за вывод; шаг вывода VLA для модели с 7B параметрами стоит на порядки дороже. Для задач, требующих широкого обобщения по средам и инструкциям, лучше подходят VLA. Для узко определенной, повторяющейся промышленной задачи, где у вас есть более 1000 демонстраций и вы можете настроить среду, классическая политика часто обеспечивает лучшую скорость и надежность при меньших затратах. Схема практического решения: если ваша задача требует обобщения, начните с магистрали VLA. Если он узкий и высокопроизводительный, оптимизируйте классическую политику.
Точная настройка VLA с помощью данных SVRC
SVRC обеспечивает комплексную поддержку проектов тонкой настройки VLA. Наш инфраструктура телеоперации записывает демонстрации в формате RLDS/LeRobot с синхронизированным многокамерным видео, проприоцептивным состоянием и метками действий с частотой 50 Гц. Наши конвейеры наборов данных включают в себя фильтрацию качества эпизодов (удаление неудачных попыток и колебаний), метаданные калибровки камеры и аннотации инструкций к задачам.
Для команд, которым необходимы специальные данные в большом масштабе, наша служба управляемого сбора данных на предприятии в Пало-Альто может проводить сотни демонстраций в день с обученными операторами по библиотеке задач по манипулированию. Мы также предлагаем консультации по разработке задач — определению объема, осей вариаций и критериев успеха для набора данных, который фактически будет обучать обобщаемой политике. Свяжитесь с нашей командой чтобы обсудить ваш проект тонкой настройки VLA или изучить наш существующий каталог наборов данных через Платформа SVRC.