Recolección de Datos

Configuración de cámara robótica para recolección de datos: Muñeca, Sobrehombro y Estéreo

La colocación de la cámara es una de las decisiones más importantes y más frecuentemente especificadas de manera insuficiente en la recolección de datos robóticos. Las observaciones que tu política ve durante el entrenamiento deben coincidir con lo que verá durante el despliegue, y configurar mal la cámara significa recolectar datos que no pueden entrenar una política confiable.

Estrategia de colocación de cámaras

El primer principio de la colocación de cámaras robóticas es: las cámaras utilizadas para la recolección de datos deben ser idénticas en posición de montaje a las cámaras utilizadas para la implementación de políticas. No hay recuperación de este desajuste: una política entrenada en vistas de cámaras de muñeca no puede generalizarse a una vista de cámara aérea, y viceversa. Define tu configuración de cámara de implementación antes de recolectar un solo episodio de datos de entrenamiento.

Las configuraciones más comunes en la investigación de manipulación son: solo muñeca (una cámara montada en la muñeca del robot, mirando hacia adelante en el espacio de trabajo de manipulación); solo aérea (una o dos cámaras montadas en un soporte aéreo fijo); y vista múltiple (cámara de muñeca más una o dos cámaras externas que proporcionan contexto global del espacio de trabajo). Las configuraciones de vista múltiple superan consistentemente a la vista única en el rendimiento de políticas, a costa de una infraestructura de grabación más compleja.

Cámaras de muñeca: pros, contras y mejores prácticas

Las cámaras de muñeca proporcionan una vista en primera persona de la acción de manipulación: el robot ve aproximadamente lo que está haciendo en su efector final. Este punto de vista es muy informativo para tareas de agarre fino e inserción donde la relación entre el gripper y el objeto debe ser percibida con precisión. Las cámaras de muñeca también siguen automáticamente al gripper a través del espacio de trabajo, asegurando que el objeto objetivo esté siempre en el encuadre durante la manipulación.

La principal limitación de las cámaras de muñeca es que no ven el espacio de trabajo global: el robot no puede percibir objetos lejanos de su posición actual del gripper sin mover el brazo. Esto limita su efectividad para tareas que requieren comprensión a nivel de escena o coordinación bimanual. Para sistemas bimanuales, cada brazo debe llevar su propia cámara de muñeca. Especificaciones recomendadas: resolución de 1080p o superior, 60+ fps, obturador global (no obturador rodante) para evitar desenfoque de movimiento durante movimientos rápidos, y una lente gran angular (90–110 grados de FOV) para mantener la vista del punto de contacto de agarre a corta distancia.

Cámaras aéreas: configuración y compensaciones

Las cámaras aéreas fijas proporcionan vistas estables y consistentes del espacio de trabajo que capturan toda la escena de manipulación. Son menos sensibles al movimiento del brazo y proporcionan mejor contexto para tareas que requieren múltiples pasos secuenciales a través de diferentes regiones del espacio de trabajo. Las cámaras aéreas son más simples de montar de manera consistente en múltiples estaciones robóticas, lo que es importante para campañas de recolección de datos a gran escala.

La limitación es la reducción de detalle en el punto de contacto de manipulación. Una cámara aérea a 80 cm de altura mirando hacia abajo en un espacio de trabajo de mesa no puede observar de manera confiable la geometría de contacto gripper-objeto en objetos pequeños. Por esta razón, las cámaras aéreas suelen emparejarse con cámaras de muñeca en configuraciones de recolección de datos de alto rendimiento: la vista aérea proporciona contexto de tarea y posicionamiento grueso, mientras que la vista de muñeca proporciona detalles finos de manipulación.

Resolución, tasa de cuadros y sincronización

Para la recolección de datos de manipulación, 480p–720p por cámara a 30 fps es suficiente para la mayoría de las políticas de aprendizaje por imitación en 2026. Una mayor resolución (1080p) mejora el rendimiento en tareas que requieren una discriminación espacial fina. Las tasas de cuadros por debajo de 30 fps introducen aliasing temporal que degrada el aprendizaje de políticas en tareas rápidas. Las tasas de cuadros superiores a 60 fps proporcionan rendimientos decrecientes para la mayoría de las tareas de manipulación y aumentan significativamente los requisitos de almacenamiento.

La sincronización de múltiples cámaras es crítica y frecuentemente descuidada. Si las cámaras no están sincronizadas por hardware, la alineación de marcas de tiempo debe implementarse cuidadosamente durante la carga de datos. Incluso 33 ms de desfase entre cámaras (un cuadro a 30 fps) pueden introducir inestabilidad en el entrenamiento para tareas donde las vistas de muñeca y aérea deben ser temporalmente consistentes. La serie Intel RealSense D435 y D455 soporta sincronización por hardware a través de un cable de sincronización y son la opción preferida de SVRC para configuraciones de múltiples cámaras sincronizadas.

Cámaras de profundidad

Las cámaras de profundidad proporcionan mediciones de distancia por píxel además de imágenes RGB, permitiendo la comprensión de escenas en 3D sin reconstrucción estéreo explícita. Intel RealSense, Microsoft Azure Kinect y cámaras ZED son los sensores de profundidad más comúnmente utilizados en la recolección de datos robóticos. La información de profundidad es valiosa para tareas donde la altura, forma o posición 3D del objeto es importante para la planificación de agarres, y para políticas que utilizan entradas de nubes de puntos en lugar de entradas de imagen puras.

La compensación: las cámaras de profundidad añaden peso, costo y carga de procesamiento. Muchos resultados de aprendizaje por imitación de vanguardia se logran con cámaras RGB puras, lo que sugiere que la profundidad no siempre es necesaria. Usa profundidad cuando tu arquitectura de política se beneficie explícitamente de la entrada 3D, cuando las tareas involucren variación significativa de profundidad (apilar objetos de diferentes alturas), o cuando necesites un rendimiento robusto en condiciones de iluminación variables (la profundidad es más invariante a la iluminación que RGB).

Calibración y el estándar de múltiples cámaras de SVRC

Cada cámara debe ser calibrada: calibración intrínseca (longitud focal, coeficientes de distorsión) y calibración extrínseca (posición y orientación relativa a la base del robot) antes de que comience la recolección de datos. Usa un objetivo de tablero de ajedrez físico para la calibración y recalibra después de cualquier movimiento o ajuste de la cámara. Almacena los parámetros de calibración como metadatos con cada conjunto de datos.

El estándar de recolección de datos de SVRC utiliza una configuración fija de tres cámaras: una cámara de muñeca por brazo más una cámara aérea calibrada por estación. Los soportes de cámara físicos son parte de nuestro diseño de estación de trabajo estandarizado, asegurando una colocación consistente en nuestras instalaciones. Todos los parámetros de calibración se registran automáticamente e incluyen en las exportaciones de conjuntos de datos. Para equipos que configuran su propia infraestructura de recolección de datos, SVRC ofrece consulta sobre la configuración de cámaras y puede suministrar ensamblajes de cámaras precalibrados — contáctanos o consulta nuestra página de servicios de datos para más detalles.