Обучение роботов

Обобщение политики роботов: почему ваш робот не справляется с новыми объектами

Ваша политика достигает 90% успеха на объектах обучения. Вы вводите новую чашку, другую коробку, незнакомый инструмент — и производительность падает до 30%. Это проблема обобщения, и это основная задача внедрения обучения роботов в реальном мире.

Что означает обобщение для политики роботов

Политика робота обобщает, когда он успешно выполняет задачу с объектами, положениями и условиями, не наблюдаемыми во время обучения. Это отличается от простого запоминания продемонстрированного поведения: запоминание приводит к нестабильным политикам, которые терпят неудачу, как только условия развертывания отличаются от условий обучения. Обобщение требует, чтобы политика изучала основную концепцию задачи (взять контейнер, налить жидкость), а не конкретную последовательность движений, привязанную к конкретным визуальным данным.

На практике имеют значение несколько осей генерализации: генерализация внешнего вида объекта (одна и та же форма, другой цвет или текстура), генерализация геометрии объекта (одна и та же категория, другой размер или точная форма), генерализация положения (тот же объект, другое начальное местоположение) и композиционное обобщение (новые комбинации знакомых элементов задачи). Каждая ось требует разных стратегий обработки данных и является более или менее сложной в зависимости от архитектуры политики.

Почему это не удается: основные причины

Наиболее распространенной причиной плохого обобщения является недостаточное разнообразие набора обучающих данных. Если во всех демонстрациях использовалась одна и та же красная чашка в одной и той же стартовой позиции, политика изучает особенности, характерные для этой чашки и этой позиции, а не общее понятие «чашка». Политика не позволяет провести различие между «взять конкретную красную чашку в этом конкретном месте» и «взять любую чашку где угодно». Это не недостаток алгоритма; это проблема с данными.

Вторичной причиной является сдвиг распределения визуальных особенностей. Если демонстрация обучения была записана при контролируемом студийном освещении, а развертывание происходит при переменном окружающем освещении, визуальные функции, изученные в соответствии с политикой, могут не активироваться должным образом при наблюдении за развертыванием. Аналогичным образом, если новый объект имеет другую текстуру поверхности или коэффициент отражения, чем обучающие объекты, визуальные функции низкого уровня, используемые основой политики, могут не соответствовать ожиданиям. Вот почему стандарт сбора данных SVRC требует сбора данных при различных условиях освещения и с различными экземплярами объектов.

Стратегии разнообразия данных

Самый надежный способ улучшить обобщение — это целенаправленная диверсификация наборов данных. Для разнообразия объектов: соберите демонстрации как минимум с 10–20 отдельными экземплярами целевой категории объектов разного размера, цвета, материала и марки. Для разнообразия позиций: меняйте начальную позицию по сетке 30–40 см и включайте разные ориентации. Для разнообразия фона: измените поверхность рабочего пространства, добавьте отвлекающие факторы и меняйте освещение в зависимости от сеанса.

Увеличение данных может дополнить реальное разнообразие, но не может заменить его. Стандартные визуальные дополнения — дрожание цвета, случайное кадрирование, изменение яркости/контрастности — повышают устойчивость к изменениям освещения, но не заменяют различные экземпляры объектов. Генерация синтетических дополненных данных с использованием редактирования изображений или генеративных моделей для создания вариаций объектов показала себя многообещающе, но требует тщательного контроля качества, чтобы избежать появления нереалистичных визуальных артефактов.

VLA против политик для конкретных задач

Модели «видение-язык-действие» (VLA) — стратегии, которые принимают языковые инструкции и визуальные наблюдения в качестве входных данных и производят действия — предлагают другой подход к обобщению. Заземляя поведение робота на богатых семантических представлениях большого предварительного обучения языку видения, VLA могут иногда обрабатывать новые экземпляры объектов с нуля на основе их визуального внешнего вида, соответствующего языковому описанию («поднимите кружку» обобщается на любой объект, который модель распознает как кружку). Такие модели, как OpenVLA, Octo и RT-2, продемонстрировали значимое обобщение с нулевым результатом при решении некоторых задач манипуляции.

Однако VLA не являются волшебными машинами обобщения. Они преуспевают в семантическом обобщении (новые экземпляры объектов в известной категории), но все еще испытывают трудности с геометрическим обобщением (новые формы объектов, требующие разных конфигураций захвата) и с задачами, требующими точного контроля силы или поведения, насыщенного контактами. Для большинства исследовательских групп практическая рекомендация такова: используйте VLA в качестве отправной точки или магистрали, а затем настройте демонстрацию для конкретных задач, чтобы добиться необходимой точности и надежности.

Методы оценки обобщения

Обобщение должно оцениваться явно, а не вытекать из результатов его распространения. Стандартный протокол оценки использует заранее заданный тестовый набор объектов, отсутствующих в обучении — в идеале 5–10 экземпляров объектов на категорию, которые были намеренно исключены из сбора данных. Оцените удерживаемый набор после обучения и сообщите об уровнях успеха как во время распространения, так и вне его. Политика, которая обеспечивает 85% распределения при распределении и только 40% при выходе из распределения, имеет ограниченные возможности обобщения и требует более разнообразных обучающих данных.

Стандарты качества SVRC требуют обобщенной оценки, прежде чем какой-либо набор данных будет помечен как готовый к производству. Наш конвейер аннотаций и оценок включает в себя набор объектов для всех наборов манипуляционных данных, а наша команда инженеров может выполнять стандартизированные обобщенные оценки на основе обученных политик. За помощь в создании более обобщаемого набора данных с помощью нашего услуги передачи данныхили для поддержки оценки, свяжитесь с командой SVRC.