sensor.calibrate() con el agarre abierto y sin carga. Esto anula el contacto propio de los dedos y el estrés del cable. Recalibra si el brazo se reposiciona significativamente.
Grabación de Demostraciones Táctiles
Los datos táctiles son la modalidad faltante en la mayoría de los conjuntos de datos de aprendizaje robótico. Esta página explica por qué es importante, cómo grabar flujos sincronizados de táctil + brazo + cámara, el formato de conjunto de datos extendido y cómo entrenar políticas que utilizan entradas táctiles.
Por qué los datos táctiles mejoran el aprendizaje de los robots
La visión indica una política dónde el agarre está. La propriocepción lo indica qué tan lejos los dedos están cerrados. Ninguno lo indica si el agarre es estableUna política entrenada solo con datos de visión y de articulaciones debe aprender a inferir la calidad del agarre de manera indirecta — a partir del movimiento del objeto, los límites de fuerza del brazo, o prueba y error durante la ejecución. Agregar la percepción táctil proporciona supervisión directa del estado de contacto: la política recibe una señal de verdad fundamental que distingue un agarre seguro de uno propenso a resbalones en cada instante de tiempo de cada demostración. Esto es especialmente impactante para objetos deformables, transparentes o de tamaño variable donde la estimación visual de la calidad del agarre es poco confiable.
Configuración de hardware para grabación sincronizada
Un equipo de grabación multimodal completo requiere tres capas de hardware, todas sincronizadas a un reloj común:
- Brazo robótico — proporciona posiciones de articulaciones, velocidades y pose del efector final a 100–500 Hz a través de USB o Ethernet. Utiliza la API de marca de tiempo del SDK del brazo, no el tiempo del sistema, para obtener el estado de la articulación con marca de hardware.
- Sensor(es) Paxini Gen3 — conectado a un hub USB alimentado montado en la muñeca del robot. Cada fotograma es marcado por el PC host en el tiempo de interrupción USB (resolución en nanosegundos, <0.5 ms de jitter).
- Cámara — una cámara montada en la muñeca (opcional: una cámara aérea). Utiliza una cámara USB o GigE con sincronización de disparo de hardware, o una cámara activada por software con latencia conocida. Graba a 30–60 fps.
Las tres fuentes escriben marcas de tiempo utilizando el mismo reloj host monótono. El SDK de la plataforma MultiSourceRecorder alinea los fotogramas en el tiempo de posprocesamiento utilizando interpolación de marcas de tiempo.
Formato de Conjunto de Datos — Esquema LeRobot Ampliado
El pipeline de recolección de datos Paxini Gen3 extiende el formato de conjunto de datos HDF5 estándar de LeRobot con canales táctiles adicionales. Las herramientas existentes de LeRobot (carga de datos, visualización, entrenamiento de políticas) siguen siendo completamente compatibles; las nuevas claves son simplemente ignoradas por los pipelines que no las utilizan.
| Clave HDF5 | Forma | fuente |
|---|---|---|
| observación.estado | (T, 7) | Posiciones de las articulaciones del brazo + ancho del agarre |
| observación.imágenes.muñeca | (T, H, W, 3) | Cámara de muñeca (uint8 RGB) |
| acción | (T, 7) | Posiciones de las articulaciones objetivo + comando del agarre |
| observacion.tactile.mapa_presion | (T, 8, 8) | Array de presión Paxini Gen3 (kPa, float32) |
| observation.tactile.fuerza_total_n | (T,) | Fuerza normal total por cuadro (Newtons) |
| observation.tactile.en_contacto | (T,) | Bandera de contacto booleano por cuadro |
| observation.tactile.centroide_contacto | (T, 2) | Centroide de contacto (fila, columna) por cuadro |
| meta/timestamps_ns | (T,) | Tiempos de nanosegundos para todos los canales |
Las nuevas teclas táctiles están resaltadas. Todas las demás teclas siguen el esquema estándar de LeRobot.
Lista de verificación de calidad para datos táctiles
in_contact borde ascendente debe coincidir con el momento visible de contacto entre la yema del dedo y el objeto en la transmisión de la cámara. Un retraso >20 ms indica un problema de alineación de marcas de tiempo.
paxini.annotate.flag_slip_events(episode) marcar automáticamente estos para revisión.
pressure_map.max() alcanza 600 kPa en cualquier episodio, el sensor está saturándose. Reduce la fuerza del agarre o utiliza la variante de palma (menor presión máxima por taxel) para agarres más pesados.
Entrenamiento de políticas con entradas táctiles
Para agregar táctil como una modalidad de observación en ACT o Política de Difusión, extiende la configuración de observación para incluir el mapa de presión o el escalar agregado (fuerza_total_n). El mapa de presión proporciona información espacial completa pero añade 64 flotantes por cuadro por sensor; el escalar es más fácil de integrar y suficiente para tareas de calidad de agarre binario.
Para el recorrido completo de entrenamiento — incluyendo cómo calcular estadísticas de normalización a partir de tu conjunto de datos grabado y evaluar contra una línea base solo de visión — consulta el camino de aprendizaje Unidad 5.
Para un contexto más amplio sobre estrategias de recolección de datos de manos hábiles, consulta el guía de Manos Hábiles.