Словарь робототехники

Более 60 терминов, охватывающих имитационное обучение, модели VLA, телеоперацию, кинематику и воплощенный искусственный интеллект, написанные для исследователей, инженеров и корпоративных команд.

65 условия А – Я организованный Обновлено 2026

A

ACT (Разбиение действий с помощью трансформеров)

ACT — это алгоритм имитационного обучения, предложенный Тони Чжао и др. (2023), который обучает основанную на преобразователе политику прогнозировать фрагмент будущих действий фиксированной длины, а не одно действие на каждом временном шаге. Прогнозируя последовательность действий за один раз, ACT уменьшает совокупную ошибку, типичную для пошагового клонирования поведения, и создает согласованное во времени движение. Архитектура кодирует наблюдения RGB и проприоцептивное состояние с помощью кодера в стиле CVAE и декодирует фрагменты действий с помощью преобразователя. ACT был продемонстрирован на ALOHA бимануальная платформа, обеспечивающая высокую производительность при выполнении таких задач, как открытие пакета и перекладывание яиц. См. также: Разделение действий (глубокое погружение).

ПолитикаТрансформаторИмитационное обучение

Пространство действий

Пространство действий — это полный набор результатов, которые политика роботов может производить на каждом временном шаге. Для руки робота это обычно включает в себя положения суставов, скорости суставов или положения конечного исполнительного органа (декартова позиция + кватернион); для мобильного робота он включает скорость колес или команды рулевого управления. Пространства действий описываются либо как дискретные (конечное меню действий), либо как непрерывные (векторы с действительным знаком). Размерность и представление пространства действия сильно влияют на то, насколько легко тренировать стабильную политику: пространства дельта-поз конечного эффектора часто легче поддаются имитационному обучению, тогда как пространства моментов суставов обеспечивают более точный контроль силы, но требуют более тщательной нормализации.

ПолитикаКонтроль

ALOHA (Недорогая аппаратная система с открытым исходным кодом для двуручного телеоперирования)

ALOHA — это бимануальная система дистанционного управления с открытым исходным кодом, разработанная в Стэнфорде и состоящая из двух роботизированных манипуляторов ViperX 300 и двух ведущих манипуляторов WidowX 250, смонтированных на общей раме со встроенной наручной камерой. Он был разработан для сбора высококачественных демонстрационных данных при низких затратах (исходная сборка стоит менее 20 000 долларов США) и лежит в основе ACT политические эксперименты. Мобильная ALOHA расширяет платформу колесной базой, позволяя выполнять задачи по передвижению всего тела, такие как приготовление пищи и уборка. Наборы данных ALOHA общедоступны и де-факто стали эталоном для исследований бимануальных манипуляций. Узнайте больше на Службы данных SVRC.

Аппаратное обеспечениеТелеоперацияБимануальный

AMR (Автономный мобильный робот)

Автономный мобильный робот перемещается по окружающей среде без фиксированных путей и человеческого руководства, используя встроенные датчики (LiDAR, камеры, IMU) в сочетании с алгоритмами SLAM, планирования пути и предотвращения препятствий. В отличие от AGV (автоматизированных транспортных средств), которые следуют по магнитным полосам, AMR создают и обновляют карту в реальном времени и динамически изменяют маршрут вокруг людей и объектов. Современные складские AMR от таких компаний, как Boston Dynamics, Locus Robotics и 6 River Systems, получили широкое распространение в логистике. AMR часто комбинируют с манипуляторами для создания мобильные манипуляторы возможность выбора и размещения в масштабе.

Мобильная робототехникаНавигацияSLAM

B

Поведенческое клонирование (БК)

Поведенческое клонирование — простейшая форма имитационное обучение: проблема контролируемой регрессии, где политика обучена имитировать экспертные демонстрации путем минимизации ошибки прогнозирования между выходными данными политики и действиями эксперта в каждом наблюдаемом состоянии. BC легко реализовать и хорошо масштабируется с данными, но страдает от сдвиг распределения — поскольку он никогда не получает корректирующей обратной связи, небольшие ошибки заставляют робота посещать состояния, отсутствующие в обучающих данных, что может привести к провалу задачи. Такие методы, как DAgger (агрегирование наборов данных) и GAIL, были разработаны специально для решения проблемы сложных ошибок в BC.

Имитационное обучениеКонтролируемое обучение

Бимануальная манипуляция

Бимануальные манипуляции относятся к задачам, которые требуют координации двух рук робота, аналогично тому, как люди используют обе руки одновременно. Примеры включают складывание белья, завязывание узлов, открытие банок и сборку деталей, которые необходимо стабилизировать одной рукой, в то время как другая выполняет мелкие операции. Бимануальные задачи существенно сложнее, чем задачи, выполняемые одной рукой, поскольку политика должна координировать два многомерных потока действий, соблюдая при этом физические ограничения между руками. ALOHA платформа была специально создана для сбора бимануальных демонстраций, и ACT является одной из ведущих стратегий бимануального управления.

МанипуляцияАппаратное обеспечение

BOM (Спецификация материалов)

В аппаратном обеспечении робототехники в спецификации перечислены все компоненты, узлы, номера деталей, количество и стоимость единицы продукции, необходимые для создания системы. Точные спецификации имеют решающее значение для масштабирования производства, закупок, управления рисками в цепочке поставок и моделирования затрат. Для платформ роботов с открытым исходным кодом, таких как OpenArm или ALOHA, опубликованная спецификация позволяет внешним группам воспроизводить оборудование без проприетарных зависимостей. Корпоративные команды, оценивающие развертывание роботов, часто запрашивают спецификацию для сравнения общей стоимости владения с альтернативами аренды или робота как услуги — сравните Варианты лизинга SVRC.

Аппаратное обеспечениеПроизводство

C

Декартово пространство (Пространство задач)

Декартово пространство (также называемое пространством задач или операционным пространством) описывает конфигурацию робота с точки зрения положения и ориентации его конечного исполнительного органа относительно мировой или базовой системы координат, обычно выражаемой как (x, y, z, крен, шаг, рыскание) или (x, y, z, кватернион). Управление роботом в декартовом пространстве часто более интуитивно понятно для имитационного обучения, поскольку человеческие демонстрации естественным образом сопоставляются с траекториями конечных эффекторов. Преобразование из совместное пространство в декартово пространство называется прямая кинематика; обратное инверсная кинематика.

КинематикаКонтроль

Совместное обучение

Совместное обучение в области робототехники означает обучение единой политике на данных из нескольких вариантов реализации, задач или сред робота одновременно. Гипотеза заключается в том, что разнообразные источники данных дают политике надежные визуальные и поведенческие представления, которые лучше переносятся в новые условия. Открыть X-вариант Набор данных был собран специально для обеспечения совместного обучения более чем 22 типов роботов. Крупные базовые модели, такие как RT-2 и OpenVLA, основаны на совместном обучении с использованием данных о визуальном языке в масштабе Интернета и данных демонстрации роботов для ускорения обобщения.

ОбучениеОбобщениеМодель фундамента

Контактное манипулирование

Манипулятивные задачи, насыщенные контактами, — это задачи, в которых целенаправленный, устойчивый контакт между роботом и окружающей средой необходим для успеха задачи, например, вставка колышка в отверстие, завинчивание болтов, складывание ткани или замешивание теста. Эти задачи сложны, поскольку небольшие ошибки позиционирования приводят к большим скачкам силы, а жесткие контроллеры положения могут повредить детали или дестабилизировать робота. Успешные подходы сочетают в себе совместимый контроль (контроль импеданса или адмиттанса), измерение силы и крутящего моментаи изучил политику, которая предвидит и использует контакты.

МанипуляцияКонтрольДатчик силы

Непрерывный контроль

Непрерывное управление относится к политикам роботов, которые выводят действительные векторы действий (например, крутящие моменты суставов, скорости или декартовы дельты), а не выбирают из дискретного набора действий. Большинство задач физического манипулирования роботом требуют постоянного контроля, поскольку плавное и точное движение не может быть адекватно представлено с помощью конечного меню действий. Стандартные алгоритмы глубокого RL для непрерывного управления включают DDPG, TD3 и SAC; для имитационного обучения, поведенческого клонирования и Политика распространения обычно используются в пространствах с непрерывным действием.

КонтрольОбучение с подкреплением

D

Увеличение данных (по робототехнике)

Увеличение данных в обучении роботов применяет случайные преобразования к обучающим наблюдениям, чтобы повысить надежность политики без сбора дополнительных демонстраций. Общие улучшения изображения включают случайное кадрирование, дрожание цвета, размытие по Гауссу и вырезание. Более сложные дополнения накладывают отвлекающий фон, изменяют условия освещения или вводят шум сенсора, чтобы предотвратить перенастройку на определенные визуальные особенности в тренировочной среде. Некоторые подходы также дополняют действия — например, добавляя шум к совместным траекториям, чтобы научить политику восстанавливаться после возмущений. Расширение особенно важно, когда обучающие данные стоят дорого (каждая демонстрация требует времени оператора).

ОбучениеНадежностьДанные

Степени свободы (ГРИП)

Степени свободы описывают количество независимых параметров, необходимых для определения конфигурации механической системы. Рука робота с шестью вращающимися шарнирами имеет 6 степеней свободы — достаточно, чтобы произвольно расположить и ориентировать рабочий орган в пределах достижимого рабочего пространства (за исключением сингулярностей). Рука с 7 степенями свободы добавляет один резервный сустав, который позволяет оптимизировать нулевое пространство для предотвращения препятствий или комфортных поз. Человеческие руки имеют примерно 7 степеней свободы в области плеч, локтей и запястий, что делает роботов с 7 степенями свободы естественным выбором для антропоморфных манипуляций. Мобильные базы добавляют 2–3 ГРИП; полные гуманоиды превышают 30 ГРИП.

КинематикаАппаратное обеспечение

Демонстрация

Демонстрация (также называемая траекторией или эпизодом в контексте имитационного обучения) — это записанная последовательность наблюдений и действий, выполняемая человеком или экспертом-контролером, которая иллюстрирует, как выполнить задачу. Демонстрации являются основным источником данных для поведенческого клонирования и других алгоритмов имитационного обучения. Их можно собрать через телеоперация, кинестетическое обучениеили захват движения. Качество данных — плавное движение, последовательное выполнение задач, адекватный охват пространства состояний задачи — имеет такое же значение, как и количество, для последующей реализации политики. SVRC собирает демонстрации роботов производственного качества через нашу услуги передачи данных.

ДанныеИмитационное обучение

Политика распространения

Политика распространения, представленная Chi et al. (2023) формулирует генерацию действий робота как процесс диффузии шумоподавления — тот же класс генеративных моделей, который используется при генерации изображений. Во время вывода политика итеративно уточняет выборку гауссовского шума в последовательность действий, обусловленную текущим наблюдением, с использованием изученной сети оценок (обычно CNN или преобразователя). По сравнению с детерминированным поведенческим клонированием, политика распространения естественным образом представляет собой мультимодальный распределяет действия (несколько допустимых способов выполнения задачи) и достигает самых современных результатов в тестах манипулирования с большим количеством контактов. См. подробная статья.

ПолитикаГенеративная модельИмитационное обучение

Ловкое манипулирование

Ловкие манипуляции относятся к тонким манипуляционным задачам с участием нескольких пальцев, в которых используются все кинематические и сенсорные возможности роботизированной руки — повторный захват рукой, перекатывание предметов по кончикам пальцев, раздача карт, хирургическое наложение швов и тому подобные задачи. Ловкость требует высокойDOF концевые исполнительные органы (5+ пальцев, каждый с 3+ суставами), плотная тактильная чувствительность и политики, способные рассуждать о сложной геометрии контакта. Обучение с подкреплением, обученное с помощью моделирования (например, Dactyl от OpenAI) и недавние политики, основанные на диффузии, раздвинули границы, но ловкое манипулирование с надежностью на человеческом уровне остается открытой исследовательской проблемой.

МанипуляцияАппаратное обеспечениеГраница исследований

E

Воплощенный ИИ

Воплощенный ИИ относится к системам искусственного интеллекта, которые воспринимают и действуют через физическое тело, находящееся в реальном мире, а не действуют исключительно на изолированном тексте или изображениях. Гипотеза воплощения утверждает, что истинный интеллект требует сенсомоторной основы — обучения посредством взаимодействия, а не просто сопоставления шаблонов на статических наборах данных. На практике воплощенные исследования ИИ включают в себя обучение роботов, Модели VLA, переход от сим-карты к реальности и модели физического фундамента. Такие компании, как Google DeepMind (серия RT), Physical Intelligence (pi0) и NVIDIA (GR00T), являются основными движущими силами промышленности. собственная компания SVRC платформа данных создан для воплощенных рабочих процессов с данными искусственного интеллекта.

Модель фундаментаФизический ИИ

Конечный эффектор

Конечный эффектор — это устройство на дистальном конце руки робота, которое напрямую взаимодействует с окружающей средой. Это может быть захват с параллельными губками, присоска, рука с несколькими пальцами, сварочная горелка, сопло для краски или любой инструмент для конкретной задачи. Поза конечного исполнительного органа — его положение и ориентация в пространстве — является основным управляющим результатом для большинства политик манипулирования. Центральная точка инструмента (TCP) — это опорная точка рабочего органа, используемого для декартового управления. Выбор правильного рабочего органа является критически важным решением при развертывании: захваты, оптимизированные для одного класса объектов (например, жестких коробок), могут выйти из строя при работе с мягкими или нестандартными предметами. Просматривать Варианты аппаратного обеспечения SVRC.

Аппаратное обеспечениеМанипуляция

Эпизод

Эпизод — это одна полная попытка выполнения задачи — от исходного состояния до успешного выполнения задачи, неудачи или тайм-аута. При обучении с подкреплением агент взаимодействует со средой в течение одного эпизода, накапливает вознаграждения, а затем среда перезагружается. При имитационном обучении каждая записанная демонстрация представляет собой один эпизод. Эпизоды являются фундаментальной единицей наборов данных для обучения роботов: набор данных из 1000 эпизодов содержит 1000 попыток выполнения задач с соответствующими наблюдениями, действиями и результатами. Продолжительность эпизода, условия сброса и критерии успеха должны быть точно определены, чтобы обеспечить последовательный сбор данных.

ДанныеОбучение с подкреплениемИмитационное обучение

Внешние факторы (камера)

Внешние характеристики камеры определяют положение и ориентацию (поза с 6 степенями свободы) камеры относительно опорной системы — обычно базы робота или рабочего органа. Вместе с внутренними параметрами (фокусное расстояние, главная точка, дисторсия объектива) внешние параметры позволяют проецировать трехмерные мировые точки на плоскость изображения и, наоборот, поднимать двумерные обнаружения в трехмерное пространство. Точная внешняя калибровка имеет решающее значение для зрительно-моторной политики, которая должна сопоставлять визуальные наблюдения с действиями робота в единой системе координат. Камеры, устанавливаемые «глаз в руке» (устанавливаемые на запястье), требуют повторной калибровки при замене рабочего органа или камеры.

ВосприятиеКалибровка

F

Датчик силы крутящего момента (Датчик ФТ)

Датчик силы и момента измеряет шестиосевой ключ (три силы Fx, Fy, Fz и три крутящих момента Tx, Ty, Tz), приложенный к запястью или рабочему органу робота. Датчики FT необходимы для задач, требующих большого количества контактов и сборки, где простой контроль положения либо пропускает контакты, либо прикладывает чрезмерную силу. Они активируют контуры управления импедансом и адмиттансом, обнаруживают проскальзывание и столкновение, а также предоставляют богатую сенсорную информацию для изучения политик. Высокоточные датчики FT от ATI и Robotiq являются стандартом в исследовательских лабораториях; Недорогие датчики на основе МЭМС становятся все более пригодными для промышленного применения.

Аппаратное обеспечениезондированиеКонтроль

Модель фундамента (робототехника)

Базовая модель — это большая нейронная сеть, предварительно обученная на обширных и разнообразных данных, которые можно адаптировать для многих последующих задач посредством точной настройки или подсказок. В робототехнике базовые модели обычно представляют собой большие модели языка видения (VLM), дополненные результатами действий для формирования VLAили большие зрительно-моторные стратегии, обученные на наборах данных для разных воплощений. Примеры включают RT-2 (Google DeepMind), OpenVLA, Octo и pi0 (физический интеллект). Базовые модели робототехники привлекательны тем, что они могут использовать предварительное обучение в масштабе Интернета, поддерживать языковую подготовку и обобщать задачи без переобучения для каждой задачи с нуля. Видеть Каталог моделей SVRC.

VLAПредварительная подготовкаОбобщение

Передняя кинематика (ФК)

Прямая кинематика вычисляет положение рабочего органа в декартовом пространстве с учетом углов суставов робота (или смещений для призматических соединений). Для последовательного цепного робота FK вычисляется путем умножения последовательности однородных матриц преобразования (по одной на каждое соединение), обычно получаемых на основе параметров Денавита-Хартенберга (DH) или описания URDF. FK всегда имеет единственное решение — при заданных углах суставов существует ровно одно положение рабочего органа — в отличие от обратной задачи (IK), которое может иметь ноль, одно или множество решений. FK используется при моделировании, проверке столкновений, визуализации и мониторинге состояния робота в реальном времени.

КинематикаКонтроль

G

Обобщение (политика роботов)

Обобщение измеряет, насколько хорошо политика робота работает с объектами, сценами или задачами, которые он не видел во время обучения. Это главная проблема обучения роботов: политика, которая запоминает обучающие демонстрации, но терпит неудачу в новых случаях, не имеет практической ценности. Исследователи различают генерализацию объектов (новые экземпляры известных категорий), генерализацию категорий (совершенно новые классы объектов) и генерализацию задач (новые формулировки инструкций или конфигурации целей). Улучшение обобщения обычно требует более крупных и разнообразных обучающих данных, совместного обучения с данными из Интернета, рандомизации предметной области в моделировании и модель фундамента приоры.

ПолитикаГраница исследований

Поза захвата

Поза захвата определяет положение с 6 степенями свободы и ориентацию руки робота или захвата относительно объекта, чтобы захват мог закрыть и надежно удерживать объект. Оценка позы захвата обычно выполняется на основе данных глубины или облака точек с использованием аналитических методов (например, выборка антиподного захвата) или обученных детекторов, таких как GraspNet-1Billion, GQ-CNN или AnyGrasp. Действительная поза захвата должна быть доступна роботу, не допускать столкновений во время подхода и быть стабильной при ожидаемых нагрузках при выполнении задачи. Показатели качества захвата включают усилие закрытия, стабильность контакта и сопротивление гаечному ключу для конкретной задачи.

МанипуляцияВосприятие

захват

Захват — самый распространенный класс роботов. рабочий орган, предназначенный для захвата и удержания предметов. Захваты с параллельными губками являются самыми простыми и наиболее широко используемыми, с двумя противоположными пальцами, приводимыми в движение двигателем или пневматикой. Всасывающие захваты используют вакуум для захвата гладких, плоских поверхностей. В мягких захватах используются податливые материалы (силикон, ткань) для прилегания к объектам неправильной формы. Многопалые руки (3–5 пальцев) позволяют ловкие манипуляции но их труднее контролировать и они дороже. Выбор захвата во многом зависит от геометрии объекта, свойств поверхности, требуемой полезной нагрузки и необходимости переориентации в руке.

Аппаратное обеспечениеКонечный эффектор

H

HDF5 (Формат иерархических данных v5)

HDF5 — это двоичный формат файлов и библиотека для эффективного хранения и доступа к большим структурированным наборам научных данных. В робототехнике HDF5 является стандартным контейнером для наборов данных для демонстрации роботов: в одном файле хранятся синхронизированные изображения с камеры, углы сочленений, состояния захватов, показания силы и метаданные в иерархических группах, а фрагментированный ввод-вывод обеспечивает быстрый произвольный доступ во время обучения. Экосистемы LeRobot и ALOHA изначально используют HDF5. Альтернатива Зар Формат предлагает облачное хранилище с улучшенной поддержкой одновременной записи. SVRC конвейеры сбора данных вывод HDF5 по умолчанию.

ДанныеХранилищеИнженерное дело

Гуманоидный робот

Гуманоидный робот имеет структуру тела, во многом похожую на человеческую — обычно туловище, две ноги, две руки и голову — что позволяет ему работать в средах, предназначенных для людей, и использовать человеческие инструменты. Известные гуманоиды включают Boston Dynamics Atlas, Agility Robotics Digit, Рисунок 01 и Tesla Optimus. Гуманоиды представляют собой экстремальные инженерные проблемы: двуногое передвижение требует контроля баланса в реальном времени, а координация более 30 степеней свободы для задач локоманипулирования требует контроль всего тела. Несмотря на эту сложность, гуманоиды привлекают огромные инвестиции, поскольку их форм-фактор распространяется на различные рабочие места без изменений инфраструктуры.

Аппаратное обеспечениеПередвижениеБимануальный

Взаимодействие человека и робота (ПЧР)

Взаимодействие человека и робота — это междисциплинарная область изучения того, как люди и роботы общаются, сотрудничают и эффективно и безопасно делят физическое пространство. Исследования HRI охватывают стандарты безопасности (ISO/TS 15066 для коллаборативных роботов), дизайн пользовательского интерфейса для телеоперации, обучение на естественном языке, разборчивые движения робота (что делает намерения робота понятными для окружающих) и социальную робототехнику (использование взгляда, жестов и речи для невербального общения). При внедрении коботов в промышленности HRI напрямую определяет, принимают ли работники и эффективно ли используют роботов вместе с ними. Хорошая конструкция HRI снижает количество несчастных случаев, повышает производительность и снижает нагрузку на обучение персонала.

БезопасностьСотрудничество

I

Имитационное обучение (Иллинойс)

Имитационное обучение — это семейство методов машинного обучения, которые обучают политике роботов на основе человеческих демонстраций, а не на основе специально разработанных функций вознаграждения. Самая простая форма – это поведенческое клонирование (контролируемая регрессия на парах состояние-действие). Более продвинутые варианты — DAgger (итеративная коррекция), GAIL (состязательная имитация) и IRL (восстановление функции вознаграждения) — решают проблемы сдвига распределения и спецификации вознаграждения, от которых страдает чистый BC. ИГ стало доминирующей парадигмой обучения ловким манипуляциям, поскольку разработка вознаграждения за сложные манипуляции чрезвычайно сложна, в то время как сбор человеческих демонстраций можно масштабировать с помощью телеоперация. См. полная подробная статья.

Основная концепцияПолитикаДанные

Обратная кинематика (Я)

Обратная кинематика учитывает углы сочленений, которые помещают рабочий орган робота в желаемое декартово положение. В отличие от прямая кинематика, IK может иметь ноль, одно или бесконечное множество решений в зависимости от кинематической структуры робота и целевой позы. Аналитические решатели ИК существуют для стандартных конфигураций с 6 степенями свободы; численные методы (псевдообратные методы Якобиана, Ньютона-Рафсона, основанные на оптимизации) обрабатывают произвольную геометрию и избыточные роботы. ИК используется при планировании движения, картировании телеопераций (преобразование положения рук оператора в совместные команды) и в любом контроллере в декартовом пространстве. Такие библиотеки, как KDL, IKFast и track-ik, обычно используются в средах ROS.

КинематикаКонтрольПланирование

Исаак Сим

NVIDIA Isaac Sim — это платформа моделирования робототехники, построенная на платформе Omniverse USD, обеспечивающая высококачественную физику (с помощью PhysX 5), фотореалистичный рендеринг (с помощью трассировки пути RTX) и интеграцию с ROS 2 «из коробки». Он специально создан для генерации синтетических данных обучения, тестирования политик роботов и исследований по переводу симуляций в реальность. Isaac Sim поддерживает рандомизацию доменов текстур, освещения и поз объектов в масштабе и интегрируется со структурой обучения с подкреплением Isaac Lab от NVIDIA. Его физика с ускорением на графическом процессоре позволяет обучать политикам RL с помощью тысяч параллельных экземпляров моделирования. Узнайте больше на Страница ресурсов SVRC Исаака Сима.

МоделированиеСинтетические данныеИнструмент

J

Совместное пространство (Конфигурационное пространство)

Пространство суставов (также называемое пространством конфигурации или C-пространством) — это пространство всех возможных векторов углов суставов робота. Точка в суставном пространстве однозначно определяет полную конфигурацию робота. Алгоритмы планирования движения, такие как RRT и PRM, работают в совместном пространстве, чтобы найти пути без столкновений между конфигурациями, поскольку проверка столкновений там более проста, чем в декартовом пространстве. Многие политики RL выводят позиции или скорости суставов непосредственно в суставном пространстве, в то время как политики имитационного обучения часто работают в Декартово пространство для облегчения согласования человека и демонстратора. См. совместная космическая статья.

КинематикаПланирование

Совместный крутящий момент

Крутящий момент сустава — это вращательная сила, прикладываемая двигателем к суставу робота, измеряемая в Ньютон-метрах (Нм). Роботы с управлением по крутящему моменту (в отличие от роботов с позиционным управлением) могут напрямую регулировать контактные силы, обеспечивая соответствующее поведение, например, податливость при нажатии и точный контроль сборочных усилий. Определение крутящего момента в каждом суставе является ключевой особенностью совместных роботов (коботов), таких как Franka Panda, серии Universal Robots UR и Kuka iiwa, обеспечивающей безопасное сотрудничество человека и робота и управление всем телом. Политика обучения, при которой выводятся крутящие моменты суставов, а не положения, требует тщательной подготовки, чтобы избежать нестабильных колебаний.

КонтрольАппаратное обеспечениеСила

K

Кинематическая цепь

Кинематическая цепь представляет собой серию звеньев твердого тела, соединенных шарнирами, которые вместе образуют механическую конструкцию робота. Открытая цепь (последовательный манипулятор робота) имеет один свободный конец (конечный эффектор), что упрощает FK. Замкнутая цепь (параллельный робот, гексапод) имеет несколько витков, что обеспечивает более высокую жесткость и скорость, но требует более сложной кинематики. Кинематическая цепь определяет рабочее пространство робота, особенности и матрицу Якоби, используемую для декартова управления. Файлы URDF описывают кинематические цепи как дерево звеньев и соединений для программного обеспечения моделирования и управления.

КинематикаМеханика

Кинестетическое обучение

Кинестетическое обучение (также называемое ведением через нос или прямым руководством) — это метод программирования робота, при котором человек физически захватывает руку робота и перемещает ее по желаемому пути движения, в то время как робот записывает траекторию. Для этого требуется, чтобы робот имел возможность заднего хода (низкое трение в суставах и податливость), чтобы оператор мог перемещать его с минимальными усилиями. Кинестетическое обучение интуитивно понятно и не требует внешнего оборудования, но оно ограничено задачами, которые оператор может физически продемонстрировать, и дает только проприоцептивные данные (без наблюдения с помощью наручной камеры), если камеры не записываются совместно. Режим компенсации гравитации на роботах с управлением крутящим моментом, таких как Franka Panda, делает кинестетическое обучение практичным.

Сбор данныхИмитационное обучение

L

Политика, обусловленная языком

Политика, обусловленная языком, использует инструкцию на естественном языке (например, «возьми красную чашку и положи ее на поднос») в качестве дополнительных входных данных наряду с визуальными наблюдениями, что позволяет единой сети политик выполнять несколько задач, выбранных во время выполнения, без повторного обучения. Кондиционирование языка обычно реализуется путем кодирования инструкций с помощью предварительно обученной языковой модели (CLIP, T5, PaLM) и объединения полученного внедрения с функциями изображения. Модели VLA такие как RT-2, OpenVLA и pi0, изначально обусловлены языком. Такой подход снижает необходимость обучения отдельных политик для каждой задачи и поддерживает нулевое обобщение для новых формулировок инструкций.

VLAМодель фундаментаОбобщение

Скрытое пространство

Скрытое пространство — это сжатое низкоразмерное представление данных, полученных нейронной сетью, — выходные данные кодера, который фиксирует наиболее важные для задачи особенности наблюдения. При обучении роботов скрытые пространства используются в VAE (вариационных автокодировщиках) для изучения структурированных представлений визуальных сцен, в моделях мира для прогнозирования будущих состояний и в политиках на основе CVAE (например, ACT) для кодирования мультимодальных распределений действий. Хорошо структурированное скрытое пространство размещает семантически схожие наблюдения близко друг к другу, что позволяет интерполяцию, планирование и увеличение данных в скрытой области, а не в необработанном пиксельном пространстве.

Обучение представлениюПолитика

ЛеРобот

LeRobot — это библиотека с открытым исходным кодом Hugging Face для обучения роботов, предоставляющая стандартизированные реализации алгоритмов имитационного обучения (ACT, Политика распространения, TDMPC), унифицированный формат набора данных, инструменты визуализации и предварительно обученные веса модели. Он направлен на снижение барьера для входа в исследования по обучению роботов, предоставляя единую связную структуру, аналогичную тому, что Transformers сделали для НЛП. LeRobot интегрируется с Hugging Face Hub для обмена наборами данных и моделями и поддерживает как моделируемую (гимназийная робототехника, MuJoCo), так и физическую среду роботов. Одновременно с ним был выпущен сопутствующий недорогой комплект робота SO-100.

ИнструментОткрытый исходный кодИмитационное обучение

Набор данных LeRobot HF

Формат набора данных LeRobot — это стандартизированная схема демонстрационных данных роботов, размещенных в Hugging Face Hub. Каждый набор данных состоит из файлов Parquet (для скалярных временных рядов: совместные позиции, действия, вознаграждения, флаги выполнения) плюс фрагменты сжатого видео MP4 для потоков камер, индексированные по эпизодам и кадрам. А meta/info.json Файл описывает имена камер, тип робота, частоту кадров и статистику данных, используемую для нормализации. Этот формат позволяет любому алгоритму, совместимому с LeRobot, загружать любой опубликованный набор данных с помощью одной строки кода, что позволяет быстро экспериментировать с разными наборами данных. В этом формате уже опубликованы десятки наборов данных о манипуляциях и мобильных манипуляциях.

ДанныеСтандартныйОткрытый исходный код

M

Манипуляция

Манипулирование подразумевает целенаправленное физическое взаимодействие с объектами — сбор, размещение, сборку, складывание, вставку, заливку и тому подобные задачи. Манипулирование роботами — одна из наиболее активных областей исследований в области воплощенного ИИ, поскольку даже простые повседневные задачи (загрузка посудомоечной машины, открытие упаковки) требуют богатого восприятия, точного управления движениями и четкого планирования захвата. Сложность манипуляций варьируется от простого взятия и размещения известных объектов в фиксированных положениях, через сборку с большим количеством контактов до полностью ловкого переориентирования рук с новыми объектами в неструктурированных сценах. SVRC услуги передачи данных специализируются на сборе демонстраций манипуляций для обучения и оценки.

Основная концепцияЗадача

MoveIt

MoveIt — это наиболее широко используемая платформа планирования движения с открытым исходным кодом для роботов-манипуляторов, первоначально разработанная в Willow Garage, а теперь поддерживаемая PickNik Robotics. MoveIt 2 работает на ROS 2 и предоставляет планировщики (OMPL, CHOMP, PILZ), планирование декартовой траектории, проверку столкновений со сценой планирования MoveIt, плагины кинематики (KDL, IKFast, TracIK) и интеграцию планирования. Это стандартный промежуточный уровень между политикой обучения робота (которая выводит желаемые положения или путевые точки конечного рабочего органа) и низкоуровневым контроллером суставов, который выполняет плавные траектории без столкновений на физическом роботе.

ИнструментПланированиеROS

Многозадачное обучение

Многозадачное обучение обучает единой политике одновременной демонстрации нескольких отдельных задач с ожиданием, что общие представления, полученные в ходе выполнения задач, улучшат производительность каждой отдельной задачи и позволят обобщить ее на новые задачи. В робототехнике это часто означает обучение сотням задач с различными объектами, целями и условиями. Ключевой проблемой является балансировка вклада градиента различных задач (градиентная интерференция) и обеспечение того, чтобы политика могла различать задачи во время вывода — обычно с помощью языковых условий или идентификаторов одной горячей задачи. Политика многозадачности является обязательным условием для роботов-помощников общего назначения.

ПолитикаОбобщениеОбучение

N

Нейронная политика

Нейронная политика — это политика управления роботом, параметризованная нейронной сетью, которая сопоставляет наблюдения (изображения, проприоцепция, язык) непосредственно с действиями (положения суставов, декартовы дельты, команды захвата). В отличие от классических конвейеров планирования движения, нейронные политики изучают отображение от начала до конца на основе данных без создания вручную промежуточных представлений. Современные нейронные политики используют сверточные кодеры для видения, преобразователи для моделирования последовательностей и такие архитектуры, как ACT, Diffusion Policy или магистрали VLA для генерации действий. Ключевым свойством нейронных политик является то, что их можно обучать на основе демонстраций или сигналов вознаграждения, что позволяет им решать задачи, слишком сложные для контроллеров, программируемых вручную.

ПолитикаГлубокое обучение

Не цепкая манипуляция

Манипулирование без захвата подразумевает манипулирование объектами без их захвата — вместо этого используются толкания, перекатывания, повороты, перевороты, наклоны или другие стратегии контакта, которые используют гравитацию и поверхностное трение. Например, подтолкнуть коробку по столу, чтобы расположить ее, или подтолкнуть колышек вертикально, прежде чем взять его. Нехваткие стратегии могут перемещать объекты в удобную для захвата конфигурацию, перемещать предметы, слишком большие, чтобы их можно было ухватить, или работать в загроможденных сценах, где метод захвата невозможен. Планирование действий без захвата требует моделирования квазистатической или динамической механики объекта и физики контакта, что делает его активной темой исследований на стыке манипуляций и планирования движения.

МанипуляцияПланирование

O

Наблюдательное пространство

Пространство наблюдения определяет все входные данные датчиков, доступные для политики робота на каждом временном шаге. Общие модальности включают в себя RGB-изображения с наручных или верхних камер, карты глубины от датчиков структурированного света или стерео, проприоцептивное состояние (положение суставов, скорости, крутящие моменты), состояние захвата, позу конечного исполнительного органа, тактильные показания и входные данные для спецификации задачи, такие как языковые вложения или изображения целей. Дизайн пространства наблюдения глубоко влияет на эффективность политики и обобщение: более подробные наблюдения несут больше информации, но увеличивают сложность модели, время обучения и риск переобучения нерелевантным визуальным особенностям.

ВосприятиеПолитика

Управление с разомкнутым контуром

Управление с разомкнутым контуром выполняет заранее запланированную траекторию без использования обратной связи от датчиков во время выполнения — робот просто следует заданным положениям или скоростям независимо от того, что происходит на самом деле. Это подходит для задач с высокой повторяемостью в контролируемых средах, таких как обработка на станке с ЧПУ или перемещение на стационарном конвейере. Управление с разомкнутым контуром является быстрым и простым, но дает сбой при возникновении нарушений, поскольку не предпринимаются корректирующие действия. Напротив, управление с обратной связью постоянно сравнивает фактическое состояние с желаемым и применяет корректирующие команды, что делает его гораздо более надежным для обучения роботов в изменяющихся условиях.

Контроль

Открыть X-вариант

Open X-Embodiment (OXE) — это крупномасштабный набор данных для демонстрации роботов, собранный Google DeepMind и 33 исследовательскими институтами, включающий более 1 миллиона эпизодов роботов из 22 различных вариантов роботов и более 527 навыков. Он был создан для того, чтобы дать возможность совместное обучение во всех вариантах реализации — гипотеза заключается в том, что разнообразный опыт работы с роботами дает более богатые представления о манипуляциях, чем наборы данных одного робота. RT-X, модель, обученная на OXE, продемонстрировала положительный перенос между вариантами реализации и улучшенную производительность при выполнении отложенных задач по сравнению с базовыми показателями для одного варианта реализации. Данные OXE общедоступны и послужили катализатором волны исследований в области робототехники.

Набор данныхМодель фундаментаМноговариантность

P

Полезная нагрузка

Полезная нагрузка — это максимальная масса (включая вес любого рабочего органа и инструментов), которую может нести рука робота, сохраняя при этом номинальную точность позиционирования и динамические характеристики. Характеристики полезной нагрузки обычно варьируются от менее 1 кг для совместных исследовательских роботов (WidowX 250: 250 г) до более 500 кг для крупных промышленных вооружений. Крайне важно, что номинальная полезная нагрузка обычно указывается при полном вылете и полностью выдвинутой стреле; на более близком расстоянии и в более выгодных положениях роботы зачастую могут справиться со значительно большим объемом задач. Превышение пределов полезной нагрузки снижает точность, ускоряет износ и может привести к нарушениям безопасности или физическому повреждению. SVRC каталог оборудования перечисляет полезную нагрузку для каждого робота.

Аппаратное обеспечениеХарактеристики

Политика (робот)

В обучении роботов политика (обозначенная π) — это функция, которая сопоставляет наблюдения с действиями: π(o) → a. Политика — это обученный «мозг» робота, который определяет, что делать на каждом временном этапе с учетом того, что он воспринимает. Политики могут быть представлены в виде нейронных сетей (нейронных политик), деревьев решений, гауссовских процессов или справочных таблиц. Они могут быть детерминистическими (одно действие на одно наблюдение) или стохастическими (распределение по действиям). Качество политики измеряется уровнем успеха задач в различных условиях, а не только на учебных демонстрациях. Основная проблема обучения роботов — это политика обучения, которая выходит за рамки распределения обучения.

Основная концепцияГлубокое обучение

Внедрение политики

Внедрение политики — это отдельный эпизод выполнения обученной политики на роботе (или в моделировании) от исходного состояния до завершения задачи или тайм-аута. Внедрения используются для оценки эффективности политики, сбора новых данных для дальнейшего обучения (как при тонкой настройке DAgger или RL) и отладки режимов сбоя. Количество развертываний, необходимое для надежной оценки производительности, зависит от изменчивости задачи — для задач с высокой дисперсией может потребоваться более 50 развертываний, чтобы получить стабильную оценку успеха. В исследованиях развертывание часто классифицируется по начальному состоянию (объекты/сцены в распределении или вне его), чтобы охарактеризовать обобщение.

ОценкаПолитика

Предварительная подготовка

Предварительное обучение — это этап разработки модели, на котором нейронная сеть обучается на большом разнообразном наборе данных перед точной настройкой для конкретной задачи. Для базовых моделей робототехники предварительное обучение может происходить на данных языка видения в масштабе Интернета (изображения, видео, текст), наборах данных роботов для разных воплощений (Open X-Embodiment), данных синтетического моделирования или их комбинации. Предварительно обученная модель изучает богатые общие представления объектов, действий и концепций, которые передаются в последующие задачи робота, с гораздо меньшим количеством демонстраций, чем обучение с нуля. Предварительное обучение — это механизм успеха моделей VLA, таких как RT-2, который выигрывает как от роботизированного, так и от предварительного обучения в масштабе Интернета.

Модель фундаментаОбучениеТрансферное обучение

Q

Q-функция (Функция «Действие-Значение»)

Q-функция Q(s, a) оценивает ожидаемое совокупное вознаграждение со скидкой, которое агент получит, выполнив действие a в состоянии s, а затем после этого следуя заданной политике. Q-функции занимают центральное место в алгоритмах обучения с подкреплением, таких как DQN (дискретные действия) и SAC, TD3 и DDPG (непрерывные действия). В роботе RL изучение точных Q-функций для задач манипулирования с большим горизонтом является сложной задачей, поскольку вознаграждения редки, а пространство состояний-действий многомерно. Недавняя работа в автономном RL (IQL, CQL) использует Q-функции для извлечения политик из фиксированных наборов данных без онлайн-взаимодействия, устраняя разрыв между имитационным обучением и RL.

Обучение с подкреплениемФункция значения

Квазистатическая манипуляция

Квазистатическое манипулирование предполагает, что движение достаточно медленное, поэтому инерционные и динамические силы незначительны — система фактически находится в статическом равновесии в каждый момент времени. Такое упрощение позволяет легко моделировать механику контакта для планирования действий толкания, скольжения, поворота и повторного захвата рукой. Многие тесты манипулирования роботами (включая большинство настольных задач по сбору и перемещению) работают в квазистатическом режиме. Когда задачи включают быстрые броски, динамические ловли или высокоскоростную сборку, квазистатические предположения не работают и требуется полная динамика твердого тела с моделированием контакта (например, MuJoCo, Исаак Сим).

МанипуляцияМеханика

R

Передача Real-Sim

Передача Real-SIM (дополнение сим-реальный) включает в себя создание или калибровку симуляции, чтобы она максимально соответствовала реальному миру — по сути, создание цифрового двойника реальных условий. Это используется для воспроизведения реальных случаев сбоя в моделировании, создания дополнительных синтетических обучающих данных, соответствующих реальным характеристикам датчиков, и безопасного тестирования обновлений политики перед развертыванием. Методы включают фотограмметрическую реконструкцию сцены, идентификацию физических параметров (идентификацию системы) и методы нейронного рендеринга (NeRF, 3D Gaussian Splatting) для соответствия внешнему виду камеры. Точные конвейеры реального моделирования значительно сокращают количество физических экспериментов, необходимых для итерации политики.

МоделированиеЦифровой двойникДанные

Достигать

Досягаемость — это максимальное расстояние от основания манипулятора робота до любой точки, к которой может получить доступ его рабочий орган в пределах его рабочего пространства. Для последовательного плеча максимальный радиус действия равен сумме длин всех звеньев. Эффективный радиус действия при развертывании меньше — с учетом совместных ограничений, предотвращения самостолкновений и необходимости приближаться к объектам с разных сторон. Охват определяет, какие макеты рабочих станций и размещение объектов возможны. При выборе роботов для задачи инженеры должны подтвердить, что требуемое рабочее пространство (включая все направления подхода для захвата) находится в пределах досягаемости робота с приемлемой точностью.

Аппаратное обеспечениеХарактеристикиКинематика

Буфер воспроизведения

Буфер воспроизведения (или память воспроизведения опыта) — это набор данных прошлых переходов (состояние, действие, вознаграждение, следующее состояние, завершение), собранных агентом RL во время взаимодействия с окружающей средой. На каждом этапе обучения из буфера выбираются случайные мини-пакеты для обучения функции значения или политики, разрушая временные корреляции, которые могут дестабилизировать обновления градиента. В автономном RL и обучении роботов буфер воспроизведения заменяется фиксированным набором данных человеческих демонстраций или ранее собранных развертываний. Приоритетное воспроизведение опыта взвешивает выборку весов по ошибке временной разницы, чтобы сосредоточить обучение на информативных переходах.

Обучение с подкреплениемДанные

Функция вознаграждения

Функция вознаграждения определяет цель обучения для агента обучения с подкреплением: она назначает скалярный сигнал вознаграждения r(s, a, s') каждому переходу (состояние, действие, следующее состояние), сообщая агенту, насколько хороши или плохи его действия. Разработка функции вознаграждения — одна из самых сложных частей применения RL в робототехнике: редкие вознаграждения (1 в случае успеха, 0 в противном случае) являются чистыми, но приводят к медленному обучению; плотные награды (например, отрицательное расстояние до цели) способствуют обучению, но их можно использовать неожиданными способами (взлом вознаграждения). Альтернативы включают обучение с вознаграждением на демонстрациях (IRL, RLHF), метрики моделирования для конкретных задач и модели изученных предпочтений. Обучение с имитацией полностью обходит проблему дизайна вознаграждений, обучаясь непосредственно на демонстрациях.

Обучение с подкреплениемОсновная концепция

S

Перевод Sim-to-Real

Перенос Sim-to-real — это процесс обучения политики робота полностью или в основном с помощью моделирования, а затем ее развертывания на физическом роботе с целью, чтобы политика работала без (или с минимальными) дополнительных реальных данных. Основной задачей является разрыв в реальности — различия в точности физики, внешнем виде, шуме датчиков и немоделированной динамике между симуляцией и реальным миром. Ключевые методы смягчения последствий включают рандомизацию области (рандомизация параметров моделирования во время обучения), идентификацию системы (калибровка моделирования для соответствия реальному оборудованию) и адаптивную точную настройку на небольших объемах реальных данных. См. подробная статья.

Трансферное обучениеМоделированиеРазвертывание

Государственное пространство

Пространство состояний — это полный набор конфигураций, в которых может находиться робот и его окружение. В RL состояние Маркова кодирует всю информацию, необходимую для прогнозирования будущих вознаграждений и переходов состояний — в идеале полного описания мира. На практике агент имеет доступ только к частичным наблюдениям (изображениям, углам сочленения), которые могут не полностью отражать состояние (например, закрытые объекты, неизвестные физические параметры). Разработка пространства наблюдения, которое хорошо аппроксимирует марковское состояние, оставаясь при этом вычислительно послушным, является ключевой задачей при разработке системы обучения роботов.

Обучение с подкреплениемКонтроль

Хирургическая робототехника

Хирургическая робототехника применяет роботизированные системы к медицинским процедурам, наиболее известным из которых является платформа да Винчи компании Intuitive Surgical для минимально инвазивной лапароскопической хирургии. Хирургические роботы обеспечивают масштабирование движений (перевод больших движений оператора в субмиллиметровые движения инструментов), фильтрацию тремора и улучшенную визуализацию внутри пациента. Новые исследования изучают автономные хирургические подзадачи (наложение швов, ретракция тканей), управление с помощью искусственного интеллекта и телехирургию по каналам 5G с малой задержкой. Одобрение регулирующих органов (FDA 510(k) или PMA для США) добавляет существенную нагрузку по проверке. Хирургическая робототехника находится на пересечении телеоперация, HRI, и контактные манипуляции.

МедицинскийТелеоперацияПриложение

T

Обучение, параметризованное задачами

Обучение, параметризованное задачами, кодирует демонстрации относительно нескольких систем координат или параметров задачи (например, позы объекта, целевого местоположения, рамки препятствия), а не в фиксированной системе координат мира. При выполнении политика автоматически адаптируется к новым объектам и целевым конфигурациям без повторного обучения, поскольку она запоминает движение относительно ссылок, соответствующих задаче. Классическими реализациями являются параметризованные задачи модели гауссовской смеси (TP-GMM) и ядровые примитивы движения. Этот подход обеспечивает сильное геометрическое обобщение для структурированных задач выбора и размещения, хотя требует идентификации и отслеживания фреймов задач во время выполнения.

Имитационное обучениеОбобщениеПолитика

Телеоперация

Телеоперация — это дистанционное управление роботом человеком-оператором, используемое как для непосредственного выполнения задач (хирургические роботы, космическая робототехника, обезвреживание бомб), так и в качестве основного метода сбора высококачественных имитационных обучающих демонстраций. При обучении роботов обычная установка использует архитектуру «лидер-последователь»: оператор перемещает легкую руку лидера, а робот (ведомый) отслеживает лидера в режиме реального времени. Системы дистанционного управления на основе виртуальной реальности (с использованием отслеживания рук или контроллеров) становятся все более популярными, поскольку они более эргономичны и обеспечивают более высокую пропускную способность данных. SVRC обеспечивает профессиональную телеоперацию услуги по сбору данных для корпоративных групп по обучению роботов.

Сбор данныхИмитационное обучениеАппаратное обеспечение

Траектория

Траектория — это параметризованная во времени последовательность состояний робота (углы сочленений или декартовы положения), которая описывает, как робот движется от начальной конфигурации к цели. Траектории могут генерироваться планировщиками движения (планирование пути без столкновений с последующей параметризацией его по времени для плавного выполнения), путем записи телеопераций (фиксация движения оператора на фиксированной частоте) или прогнозироваться непосредственно с помощью нейронной политики. Плавность траектории и постоянство скорости важны для физической безопасности робота — резкие скачки вызывают механическое напряжение и могут вызвать остановку безопасности. Представления траектории включают сплайны, примитивы динамического движения (DMP) и дискретные последовательности маршрутных точек.

ПланированиеКонтрольДанные

Трансферное обучение

Трансферное обучение в робототехнике предполагает использование модели, предварительно обученной в одной области (например, данных интернет-видения, симуляции или другого робота), и адаптацию ее к целевой задаче или роботу с ограниченными дополнительными данными. Наиболее распространенным подходом является точная настройка последних слоев предварительно обученной магистрали на демонстрационных данных робота; Полная точная настройка всех весов используется при наличии достаточного количества данных о роботе. Трансферное обучение – это механизм, который делает модели фундамента практично для робототехники — альтернатива обучению с нуля только на данных роботов потребует миллионов демонстраций. См. также предварительная подготовка, перевод из сим-реала.

Модель фундаментаОбучение

U

URDF (Единый формат описания роботов)

URDF — это формат файла на основе XML, описывающий кинематические и динамические свойства робота: связи (твердые тела с массой, инерцией и сетками визуального/столкновения) и соединения (связи между звеньями с типом, осью, ограничениями и параметрами демпфирования). URDF — это стандартный формат описания роботов в ROS, который поддерживается всеми основными платформами моделирования (Isaac Sim, MuJoCo, Gazebo, PyBullet). Он позволяет загружать кинематику робота в планировщики движений, такие как MoveIt, визуализировать робота в RViz и создавать экземпляры моделей физического моделирования. XACRO (язык макросов XML) обычно используется для параметризации и модуляризации файлов URDF для сложных роботов. OpenArm и большинство оборудования SVRC имеют общедоступные модели URDF.

ИнструментСтандартныйМоделирование

V

VLA (Модель «Видение-Язык-Действие»)

Модель «Видение-Язык-Действие» — это нейронная сеть, которая совместно обрабатывает визуальные наблюдения (изображения RGB), инструкции на естественном языке и проприоцепцию робота для получения результатов действия. VLA расширяют большие модели языка видения (такие как PaLM-E, LLaVA или Gemini), добавляя головку действия — обучая модель выводить положения суставов робота или дельты конечного исполнительного органа наряду с прогнозами языка. Известные VLA включают RT-2 (маркирует действия как текстовые токены и настраивает VLM), OpenVLA (с открытым исходным кодом, параметр 7B, обученный на Open X-Embodiment) и pi0 (VLA для согласования потоков физического интеллекта). См. Статьи VLA и VLM и Каталог моделей SVRC.

Модель фундаментаЯзыкОсновная концепция

ViperX

ViperX — это серия роботов-манипуляторов с 6 степенями свободы, производимых компанией Trossen Robotics, широко используемых в академических исследованиях по обучению роботов благодаря их низкой стоимости, поддержке ROS и совместимости с сервоэкосистемой DYNAMIXEL. ViperX 300 (с вылетом 300 мм) и ViperX 300-S являются одними из наиболее распространенных исследовательских манипуляторов, встречающихся в установках для имитации обучения, и являются ведомыми манипуляторами в оригинале. ALOHA система. Руки ViperX имеют скромную полезную нагрузку (~750 г) и точность по сравнению с промышленными роботами, но предлагают доступную отправную точку для исследования манипуляций. Просмотр SVRC хозяйственный магазин для доступности.

Аппаратное обеспечениеИсследовательский робот

Визуальное обслуживание

Визуальное обслуживание использует обратную связь с камеры в контроллере с обратной связью, чтобы направлять робота к цели, определенной в пространстве изображений (визуальное обслуживание на основе изображений, IBVS) или трехмерном пространстве, оцениваемом по изображениям (визуальное обслуживание на основе положения, PBVS). В IBVS контроллер минимизирует ошибку между обнаруженными элементами изображения (ключевыми точками, ограничивающими рамками объекта) и их желаемыми положениями в плоскости изображения без явного расчета трехмерных поз. Визуальный сервопривод привлекателен тем, что он напрямую компенсирует ошибки калибровки и несоосность камеры и робота. Современные варианты глубокого обучения обучают нейронные сети выводить команды скорости сервопривода непосредственно из необработанных изображений, что обеспечивает надежное сопоставление с новыми объектами.

КонтрольВосприятиеЗамкнутый контур

W

Путевая точка

Путевая точка — это промежуточная конфигурация (углы сочленений или декартова поза), через которую должна пройти траектория робота на пути от старта к цели. Путевые точки позволяют программистам и планировщикам направлять робота на путь через определенные позы — например, чтобы избежать препятствия, приблизиться к объекту с безопасного направления или выполнить последовательность действий в многоэтапной процедуре сборки. При обучении роботов политики высокого уровня иногда выдают путевые точки, которые планировщик движения более низкого уровня интерполирует в плавные траектории суставов, сочетая преимущества обобщения изученных политик с гарантиями безопасности классического планирования.

ПланированиеТраектория

Контроль всего тела (ВБК)

Управление всем телом одновременно координирует все суставы ножного или гуманоидного робота для достижения нескольких конкурирующих целей — поддержания баланса, отслеживания целей конечного исполнительного органа, предотвращения ограничений суставов и управления контактными силами — решаемых как задача оптимизации с ограничениями в реальном времени (обычно QP). WBC необходим для гуманоидов и ножных манипуляторов, поскольку основание не фиксировано: движение руки смещает центр массы и должно компенсироваться регулировкой ног и туловища. Фреймворки WBC, такие как Drake, Pinocchio и OCS2, обычно используются в исследованиях гуманоидов. Платформа Mobile ALOHA и Boston Dynamics Atlas используют контроллеры всего тела для управления локомотивом. Видеть Статья WBC.

КонтрольГуманоидПередвижение

Рабочая область

Рабочее пространство робота — это набор всех положений (и ориентаций), которых может достичь рабочий орган с учетом кинематической структуры робота и ограничений суставов. доступное рабочее пространство — все положения, которых может достичь концевой эффектор хотя бы в одной ориентации; тот удобное рабочее место — это меньшее подмножество, доступное в любой ориентации — наиболее полезная область для задач манипулирования, требующих произвольных углов подхода. Анализ рабочего пространства позволяет получить информацию о расположении ячеек (на каком расстоянии друг от друга должны находиться роботы и детали), выборе робота (соответствие досягаемости макету задачи) и планировании движения (определение путей без сингулярностей в рабочем пространстве).

КинематикаАппаратное обеспечениеПланирование

Z

Зар (формат данных)

Zarr — это формат с открытым исходным кодом для хранения n-мерных массивов в сжатой форме, предназначенный для облачных и параллельных рабочих нагрузок ввода-вывода. В робототехнике Zarr используется для хранения больших наборов демонстрационных данных роботов (изображений, состояний суставов, действий) в формате, который можно эффективно читать из хранилища объектов (S3, GCS) без загрузки целых файлов. В отличие от HDF5Zarr поддерживает параллельную запись, что делает его пригодным для распределенных конвейеров сбора данных. Zarr v3 стандартизировал формат и добавил поддержку сегментирования (объединения множества маленьких фрагментов в меньшее количество больших файлов), что повышает эффективность облачного хранилища. Такие проекты, как LeRobot и несколько наборов данных об автономных транспортных средствах, использовали Zarr для хостинга крупномасштабных наборов данных.

ДанныеХранилищеИнженерное дело

Обобщение с нулевым выстрелом

Обобщение с нулевым выстрелом — это способность обученной политики успешно выполнять задачи, объекты или среды, которые она никогда явно не видела во время обучения, без какой-либо дополнительной тонкой настройки или демонстрации. Настоящая передача с нулевым выстрелом является основной целью моделей основы роботов — политика, которая обобщает нулевой выстрел на новые предметы домашнего обихода или новые языковые инструкции, значительно сократит нагрузку по сбору данных. Текущие модели VLA демонстрируют многообещающую нулевую генерализацию языка (понимание новых формулировок известных типов задач), но все еще испытывают трудности с действительно новыми категориями объектов или совершенно новыми навыками манипулирования. Повышение производительности при нулевом выстреле является основной мотивацией для масштабирования наборов данных роботов и размеров моделей. См. также Статья о передаче с нулевым выстрелом.

ОбобщениеМодель фундаментаГраница исследований

Нет терминов, соответствующих вашему запросу

Попробуйте использовать более короткий термин или проверьте правописание. Все 65 терминов перечислены выше, когда поиск очищен.

Нужны данные роботов для вашего учебного проекта?

Мы собираем качественные, готовые к обучению демонстрации имитационного обучения и RL — от настольных манипуляций до мобильных бимануальных задач.

Службы передачи данных Связаться с нами