Настройка камеры робота для сбора данных: наручная, накладная и стереосистема

Размещение камеры — одно из наиболее важных и наиболее часто недооцененных решений при сборе данных робота. Наблюдения, которые ваша политика видит во время обучения, должны соответствовать тому, что она будет видеть во время развертывания, а неправильная настройка камеры означает сбор данных, которые не могут обучить надежную политику.

Стратегия размещения камеры

Первый принцип размещения камер робота: камеры, используемые для сбора данных, должны быть идентичны по монтажному положению камерам, используемым для развертывания политики. Из этого несоответствия невозможно исправить — политика, обученная на изображениях с камеры наручного устройства, не может быть обобщена на вид с камеры сверху, и наоборот. Определите конфигурацию камеры развертывания, прежде чем собирать один эпизод обучающих данных.

Наиболее распространенными конфигурациями при исследовании манипуляций являются: только запястье (одна камера, установленная на запястье робота, смотрит вперед на рабочую область манипуляций); только накладные (одна или две камеры, установленные на стационарной подвесной установке); и мультипросмотр (наручная камера плюс одна или две внешние камеры, обеспечивающие глобальный контекст рабочего пространства). Конфигурации с несколькими представлениями неизменно превосходят конфигурации с одним представлением по производительности политики за счет более сложной инфраструктуры записи.

Наручные камеры: плюсы, минусы и лучшие практики

Наручные камеры обеспечивают вид манипуляции от первого лица — робот примерно видит, что он делает на своем рабочем органе. Эта точка зрения очень информативна для задач точного захвата и введения, где необходимо точно определить взаимосвязь между захватом и объектом. Наручные камеры также автоматически следуют за захватом через рабочую область, гарантируя, что целевой объект всегда будет в кадре во время манипуляции.

Основным ограничением наручных камер является то, что они не видят глобального рабочего пространства — робот не может воспринимать объекты, находящиеся далеко от текущего положения захвата, не перемещая руку. Это ограничивает их эффективность для задач, требующих понимания на уровне сцены или двуручной координации. В бимануальных системах на каждой руке должна быть своя камера на запястье. Рекомендуемые характеристики: разрешение 1080p или выше, частота кадров 60+, глобальный затвор (не скользящий затвор), чтобы избежать размытия изображения при быстрых движениях, и широкоугольный объектив (угол обзора 90–110 градусов), чтобы сохранять видимость точки контакта с захватом с близкого расстояния.

Верхние камеры: конфигурация и компромиссы

Стационарные потолочные камеры обеспечивают стабильный и последовательный вид рабочего пространства, захватывающий всю сцену манипуляций. Они менее чувствительны к движению руки и обеспечивают лучший контекст для задач, требующих нескольких последовательных шагов в разных областях рабочего пространства. Верхние камеры проще монтировать последовательно на нескольких роботизированных станциях, что важно для крупномасштабных кампаний по сбору данных.

Ограничением является снижение детализации в точке контакта с манипуляцией. Верхняя камера на высоте 80 см, смотрящая вниз на рабочую зону стола, не может надежно наблюдать геометрию контакта захвата с объектом на небольших объектах. Вот почему верхние камеры обычно сочетаются с наручными камерами в высокопроизводительных установках сбора данных: вид сверху обеспечивает контекст задачи и грубое позиционирование, а вид на запястье обеспечивает точную детализацию манипуляций.

Разрешение, частота кадров и синхронизация

Для сбора данных о манипуляциях разрешения 480–720p на камеру со скоростью 30 кадров в секунду достаточно для большинства политик имитационного обучения в 2026 году. Более высокое разрешение (1080p) повышает производительность при выполнении задач, требующих точной пространственной дискриминации. Частота кадров ниже 30 кадров в секунду приводит к временному сглаживанию, которое ухудшает обучение политике при выполнении быстрых задач. Частота кадров выше 60 кадров в секунду снижает отдачу от большинства задач манипулирования и значительно увеличивает требования к памяти.

Синхронизация нескольких камер имеет решающее значение, и ею часто пренебрегают. Если камеры не синхронизированы аппаратно, во время загрузки данных необходимо тщательно выполнять выравнивание меток времени. Даже 33-миллисекундное смещение между камерами (один кадр при 30 кадрах в секунду) может привести к нестабильности тренировки для задач, в которых вид запястья и вид сверху должны быть согласованы во времени. Серии Intel RealSense D435 и D455 поддерживают аппаратную синхронизацию через кабель синхронизации и являются предпочтительным выбором SVRC для синхронизированных настроек нескольких камер.

Камеры глубины

Камеры глубины обеспечивают попиксельные измерения расстояний в дополнение к изображениям RGB, что позволяет понимать трехмерную сцену без явной стереореконструкции. Камеры Intel RealSense, Microsoft Azure Kinect и ZED являются наиболее часто используемыми датчиками глубины при сборе данных роботов. Информация о глубине ценна для задач, в которых высота, форма или трехмерное положение объекта важны для планирования захвата, а также для политик, которые используют входные данные облака точек, а не чистые входные изображения.

Компромисс: камеры глубины увеличивают вес, стоимость и нагрузку на обработку. Многие современные результаты имитационного обучения достигаются с помощью камер с чистым RGB-подсветкой, а это означает, что глубина не всегда необходима. Используйте глубину, когда ваша архитектура политики явно извлекает выгоду из 3D-входа, когда задачи требуют значительного изменения глубины (сложение объектов разной высоты) или когда вам нужна надежная производительность в переменных условиях освещения (глубина более инвариантна к освещению, чем RGB).

Калибровка и стандарт многокамерности SVRC

Перед началом сбора данных каждая камера должна быть откалибрована — внутренняя калибровка (фокусное расстояние, коэффициенты искажения) и внешняя калибровка (положение и ориентация относительно базы робота). Используйте физическую мишень в виде шахматной доски для калибровки и повторяйте калибровку после любого перемещения или регулировки камеры. Сохраняйте параметры калибровки в виде метаданных с каждым набором данных.

Стандарт сбора данных SVRC использует фиксированную конфигурацию из трех камер: одна камера на запястье на каждую руку плюс одна калиброванная верхняя камера на каждую станцию. Физические крепления для камер являются частью стандартизированной конструкции наших рабочих станций, обеспечивая единообразное размещение на нашем предприятии. Все параметры калибровки автоматически регистрируются и включаются в экспорт набора данных. Для команд, создающих собственную инфраструктуру сбора данных, SVRC предлагает консультации по настройке камеры и может предоставить предварительно откалиброванные сборки камер — связаться с нами или посмотрите наш страница служб передачи данных для получения подробной информации.

Связанный: Настройка мобильного ALOHA · Аннотация к данным робота · Определение силы крутящего момента · Службы передачи данных