Glosario de Robótica

60+ términos que cubren aprendizaje por imitación, modelos VLA, teleoperación, cinemática y IA incorporada — escrito para investigadores, ingenieros y equipos empresariales.

65 términos A–Z organizado Actualizado 2026

A

ACT (División de Acciones con Transformadores)

ACT es un algoritmo de aprendizaje por imitación introducido por Tony Zhao et al. (2023) que entrena una política basada en transformadores para predecir un bloque de acciones futuras de longitud fija en lugar de una sola acción en cada instante de tiempo. Al predecir secuencias de acciones de una sola vez, ACT reduce el error acumulativo típico del clonaje de comportamiento paso a paso y produce un movimiento temporalmente consistente. La arquitectura codifica observaciones RGB y estado propioceptivo a través de un codificador estilo CVAE y decodifica bloques de acciones utilizando un transformador. ACT se demostró en la ALOHA plataforma bimanual, logrando un rendimiento sólido en tareas como abrir una bolsa y transferir huevos. Ver también: División de Acciones (análisis profundo).

PolíticaTransformadorAprendizaje por Imitación

Espacio de Acción

El espacio de acción es el conjunto completo de salidas que una política robótica puede producir en cada instante de tiempo. Para un brazo robótico, típicamente incluye posiciones de las articulaciones, velocidades de las articulaciones o poses del efector final (posición cartesiana + cuaternión); para un robot móvil incluye velocidades de las ruedas o comandos de dirección. Los espacios de acción se describen como discretos (un menú finito de acciones) o continuos (vectores de valores reales). La dimensionalidad y representación del espacio de acción influye fuertemente en cuán fácil es entrenar una política estable: los espacios de delta-pose del efector final son a menudo más fáciles para el aprendizaje por imitación, mientras que los espacios de torque de las articulaciones ofrecen un control de fuerza más fino pero requieren una normalización más cuidadosa.

PolíticaControl

ALOHA (Un Sistema de Hardware Abierto y de Bajo Costo para Teleoperación Bimanual)

ALOHA es un sistema de teleoperación bimanual de código abierto desarrollado en Stanford, que consiste en dos brazos robóticos ViperX 300 y dos brazos líderes WidowX 250 montados en un marco compartido con una cámara de muñeca integrada. Fue diseñado para recopilar datos de demostración de alta calidad a bajo costo — la construcción original está por debajo de $20,000 — y respalda los ACT experimentos de políticas. ALOHA móvil extiende la plataforma con una base con ruedas, permitiendo tareas de loco-manipulación de cuerpo completo como cocinar y limpiar. Los conjuntos de datos de ALOHA están disponibles públicamente y se han convertido en un estándar de facto para la investigación en manipulación bimanual. Aprende más en Servicios de Datos SVRC.

HardwareTeleoperaciónBimanual

AMR (Robot Móvil Autónomo)

Un robot móvil autónomo navega a través de su entorno sin vías fijas ni guía humana, utilizando sensores a bordo (LiDAR, cámaras, IMU) combinados con SLAM, planificación de rutas y algoritmos de evitación de obstáculos. A diferencia de los AGVs (vehículos guiados automatizados) que siguen cintas magnéticas, los AMRs construyen y actualizan un mapa en tiempo real y redirigen dinámicamente alrededor de personas y objetos. Los AMRs modernos de empresas como Boston Dynamics, Locus Robotics y 6 River Systems han impulsado una amplia adopción en logística. Los AMRs a menudo se combinan con brazos manipuladores para crear manipuladores móviles capaces de recoger y colocar a gran escala.

Robótica MóvilNavegaciónSLAM

B

Clonación Comportamental (CC)

La clonación comportamental es la forma más simple de aprendizaje por imitación: un problema de regresión supervisada donde la política se entrena para imitar demostraciones de expertos minimizando el error de predicción entre la salida de la política y la acción del experto en cada estado observado. La CC es fácil de implementar y se escala bien con los datos, pero sufre de cambio de distribución — porque nunca recibe retroalimentación correctiva, pequeños errores hacen que el robot visite estados no presentes en los datos de entrenamiento, lo que puede llevar a fallos en la tarea. Técnicas como DAgger (Agregación de Conjuntos de Datos) y GAIL se desarrollaron específicamente para abordar el problema de error acumulativo de la CC.

Aprendizaje por ImitaciónAprendizaje Supervisado

Manipulación Bimanual

La manipulación bimanual se refiere a tareas que requieren que dos brazos robóticos trabajen en coordinación, análogas a cómo los humanos utilizan ambas manos simultáneamente. Ejemplos incluyen doblar ropa, atar nudos, abrir frascos y ensamblar piezas que deben ser estabilizadas por una mano mientras la otra realiza operaciones finas. Las tareas bimanuales son sustancialmente más difíciles que las tareas de un solo brazo porque la política debe coordinar dos flujos de acción de alta dimensión mientras respeta las restricciones físicas entre los brazos. El ALOHA plataforma fue diseñada específicamente para recopilar demostraciones bimanuales, y ACT está entre las políticas líderes para el control bimanual.

ManipulaciónHardware

BOM (Lista de Materiales)

En hardware de robótica, la lista de materiales (BOM) enumera cada componente, subensamble, número de parte, cantidad y costo unitario requeridos para construir un sistema. Las BOM precisas son críticas para la escalabilidad de producción, la adquisición, la gestión de riesgos en la cadena de suministro y la modelización de costos. Para plataformas de robots de código abierto como OpenArm o ALOHA, una BOM publicada permite a equipos externos reproducir el hardware sin dependencias propietarias. Los equipos empresariales que evalúan el despliegue de robots a menudo solicitan una BOM para comparar el costo total de propiedad con alternativas de arrendamiento o robots como servicio. Opciones de arrendamiento de SVRC.

HardwareFabricación

C

Espacio cartesiano (Espacio de tareas)

El espacio cartesiano (también llamado espacio de tareas o espacio operativo) describe la configuración de un robot en términos de la posición y orientación de su efector final en relación con un marco de referencia del mundo o base, típicamente expresado como (x, y, z, rollo, inclinación, guiñada) o (x, y, z, cuaternión). Controlar un robot en el espacio cartesiano es a menudo más intuitivo para el aprendizaje por imitación porque las demostraciones humanas se mapean naturalmente a las trayectorias del efector final. La transformación de espacio articular al espacio cartesiano se llama cinemática directa; la inversa es cinemática inversa.

CinemáticaControl

Co-entrenamiento

El co-entrenamiento en robótica se refiere a entrenar una única política con datos de múltiples encarnaciones de robots, tareas o entornos simultáneamente. La hipótesis es que fuentes de datos diversas enseñan a la política representaciones visuales y comportamentales robustas que se transfieren mejor a nuevos entornos. El Open X-Embodiment conjunto de datos fue ensamblado específicamente para permitir el co-entrenamiento a través de más de 22 tipos de robots. Modelos de base grandes como RT-2 y OpenVLA dependen del co-entrenamiento con datos de visión-lenguaje a escala de internet junto con datos de demostración de robots para iniciar la generalización.

EntrenamientoGeneralizaciónModelo fundamental

Manipulación rica en contacto

Las tareas de manipulación rica en contacto son aquellas donde el contacto intencionado y sostenido entre el robot y el entorno es esencial para el éxito de la tarea, como la inserción de un pasador en un agujero, atornillar pernos, doblar tela o amasar masa. Estas tareas son desafiantes porque pequeños errores de posición producen picos de fuerza grandes, y los controladores de posición rígidos pueden dañar partes o desestabilizar el robot. Los enfoques exitosos combinan control compliant (control de impedancia o admitancia), detección de fuerza y torque, y políticas aprendidas que anticipan y explotan el contacto.

ManipulaciónControlDetección de fuerza

Control continuo

El control continuo se refiere a políticas de robots que generan vectores de acción de valor real (por ejemplo, torques de articulaciones, velocidades o deltas cartesianas) en lugar de seleccionar de un conjunto discreto de acciones. La mayoría de las tareas de manipulación robótica física requieren control continuo porque el movimiento suave y preciso no puede ser representado adecuadamente por un menú de acciones finito. Los algoritmos estándar de RL profundo para control continuo incluyen DDPG, TD3 y SAC; para el aprendizaje por imitación, el clonaje de comportamiento y Política de Difusión se utilizan comúnmente en espacios de acción continua.

ControlAprendizaje por refuerzo

D

Aumento de datos (para robótica)

El aumento de datos en el aprendizaje robótico aplica transformaciones aleatorias a las observaciones de entrenamiento para mejorar la robustez de la política sin recopilar demostraciones adicionales. Las augmentaciones de imagen comunes incluyen recortes aleatorios, variaciones de color, desenfoque gaussiano y recortes. Augmentaciones más sofisticadas superponen fondos distractores, cambian las condiciones de iluminación o inyectan ruido de sensor para prevenir el sobreajuste a características visuales específicas en el entorno de entrenamiento. Algunos enfoques también aumentan las acciones, por ejemplo, añadiendo ruido a las trayectorias de las articulaciones para enseñar a la política a recuperarse de perturbaciones. El aumento es especialmente importante cuando los datos de entrenamiento son costosos (cada demostración requiere tiempo de un operador humano).

EntrenamientoRobustezDatos

Grados de libertad (DOF)

Los grados de libertad describen el número de parámetros independientes necesarios para especificar la configuración de un sistema mecánico. Un brazo robótico con seis articulaciones rotativas tiene 6 DOF, suficientes para posicionar y orientar su efector final de manera arbitraria dentro de su espacio de trabajo alcanzable (salvo singularidades). Un brazo de 7 DOF añade una articulación redundante que permite la optimización del espacio nulo para la evitación de obstáculos o posturas de comodidad. Los brazos humanos tienen aproximadamente 7 DOF en la cadena hombro-codo-muñeca, lo que hace que los robots de 7 DOF sean elecciones naturales para la manipulación antropomórfica. Las bases móviles añaden de 2 a 3 DOF; los humanoides completos superan los 30 DOF.

CinemáticaHardware

Demostración

Una demostración (también llamada trayectoria o episodio en contextos de aprendizaje por imitación) es una secuencia grabada de observaciones y acciones proporcionadas por un humano o controlador experto que ilustra cómo realizar una tarea. Las demostraciones son la principal fuente de datos para el clonaje de comportamiento y otros algoritmos de aprendizaje por imitación. Pueden ser recopiladas a través de teleoperación, enseñanza cinestésica, o captura de movimiento. La calidad de los datos — movimiento suave, ejecución consistente de la tarea, cobertura adecuada del espacio de estado de la tarea — es tan importante como la cantidad para el rendimiento de la política en etapas posteriores. SVRC recopila demostraciones robóticas de calidad de producción a través de nuestra servicios de datos.

DatosAprendizaje por Imitación

Política de Difusión

La Política de Difusión, introducida por Chi et al. (2023), formula la generación de acciones robóticas como un proceso de difusión de eliminación de ruido — la misma clase de modelos generativos utilizados en la generación de imágenes. En el momento de la inferencia, la política refina iterativamente una muestra de ruido gaussiano en una secuencia de acciones condicionadas a la observación actual utilizando una red de puntuación aprendida (típicamente una CNN o transformador). En comparación con el clonaje de comportamiento determinista, la Política de Difusión representa naturalmente multimodal distribuciones de acción (múltiples formas válidas de realizar una tarea) y logra resultados de vanguardia en benchmarks de manipulación ricos en contacto. Ver el artículo detallado.

PolíticaModelo generativoAprendizaje por Imitación

Manipulación hábil

La manipulación hábil se refiere a tareas de manipulación fina y multifacética que explotan todas las capacidades cinemáticas y sensoriales de una mano robótica: re-agarrar en la mano, rodar objetos a través de las yemas de los dedos, repartir cartas, suturar quirúrgicamente y tareas similares. La destreza requiereDOF efectores finales de alta gama (5+ dedos, cada uno con 3+ articulaciones), detección táctil densa y políticas capaces de razonar sobre geometría de contacto compleja. El aprendizaje por refuerzo entrenado en simulación (por ejemplo, Dactyl de OpenAI) y las políticas recientes basadas en difusión han empujado la frontera, pero la manipulación hábil con fiabilidad a nivel humano sigue siendo un problema de investigación abierto.

ManipulaciónHardwareFrontera de Investigación

E

IA integrada

La IA incorporada se refiere a sistemas de inteligencia artificial que perciben y actúan a través de un cuerpo físico situado en el mundo real, en lugar de operar puramente sobre texto o imágenes de forma aislada. La hipótesis de la incorporación sostiene que la verdadera inteligencia requiere una base sensorimotora: aprender a través de la interacción, no solo emparejando patrones en conjuntos de datos estáticos. En la práctica, la investigación en IA incorporada abarca el aprendizaje robótico, Modelos VLAla transferencia de simulación a realidad y modelos de fundamentos físicos. Empresas como Google DeepMind (serie RT), Physical Intelligence (pi0) y NVIDIA (GR00T) son los principales impulsores industriales. El propio plataforma de datos SVRC está construido para flujos de trabajo de datos de IA incorporada.

Modelo fundamentalFísica de IA

Efector Final

El efector final es el dispositivo en el extremo distal de un brazo robótico que interactúa directamente con el entorno. Puede ser un agarre de mandíbula paralela, una ventosa, una mano multifacética, una antorcha de soldadura, una boquilla de pintura o cualquier herramienta específica para una tarea. La pose del efector final —su posición y orientación en el espacio— es la salida de control principal para la mayoría de las políticas de manipulación. El punto central de la herramienta (TCP) es el punto de referencia en el efector final utilizado para el control cartesiano. Elegir el efector final correcto es una decisión crítica de implementación: los agarres optimizados para una clase de objeto (por ejemplo, cajas rígidas) pueden fallar en artículos suaves o irregulares. Navegar opciones de hardware de SVRC.

HardwareManipulación

Episodio

Un episodio es un intento único y completo de una tarea —desde el estado inicial hasta el éxito, fracaso o un tiempo de espera de la tarea. En el aprendizaje por refuerzo, el agente interactúa con el entorno durante un episodio, acumula recompensas y luego se reinicia el entorno. En el aprendizaje por imitación, cada demostración grabada constituye un episodio. Los episodios son la unidad fundamental de los conjuntos de datos de aprendizaje robótico: un conjunto de datos de 1,000 episodios contiene 1,000 intentos de tarea con observaciones, acciones y resultados asociados. La longitud del episodio, las condiciones de reinicio y los criterios de éxito deben definirse con precisión para garantizar una recolección de datos consistente.

DatosAprendizaje por refuerzoAprendizaje por Imitación

Extrínseco (cámara)

Los extrínsecos de la cámara definen la posición y orientación (pose de 6 grados de libertad) de una cámara en relación con un marco de referencia —típicamente la base del robot o el efector final. Junto con los parámetros intrínsecos (distancia focal, punto principal, distorsión de la lente), los extrínsecos permiten proyectar puntos del mundo 3D en el plano de imagen y, a la inversa, elevar detecciones 2D a un espacio 3D. La calibración extrínseca precisa es crítica para las políticas visuomotoras que deben mapear observaciones visuales a acciones robóticas en un marco de coordenadas consistente. Las cámaras en la mano (montadas en la muñeca) requieren recalibración cuando se reemplaza el efector final o la cámara.

PercepciónCalibración

F

Sensor de Fuerza y Torque (Sensor FT)

Un sensor de fuerza y torque mide el par de seis ejes (tres fuerzas Fx, Fy, Fz y tres torques Tx, Ty, Tz) aplicados en la muñeca o efector final de un robot. Los sensores FT son esenciales para tareas ricas en contacto y ensamblaje donde el control de posición puro podría perder contactos o aplicar fuerza excesiva. Permiten bucles de control de impedancia y admitancia, detectan deslizamientos y colisiones, y proporcionan entradas sensoriales ricas para políticas aprendidas. Los sensores FT de alta precisión de ATI y Robotiq son estándar en laboratorios de investigación; los sensores de bajo costo basados en MEMS son cada vez más viables para implementaciones en producción.

HardwareDetecciónControl

Modelo fundamental (robótica)

Un modelo base es una gran red neuronal preentrenada en datos amplios y diversos que puede adaptarse a muchas tareas posteriores a través de ajuste fino o indicaciones. En robótica, los modelos base son típicamente grandes modelos de visión-lenguaje (VLMs) extendidos con salidas de acción para formar VLAs, o grandes políticas visuomotoras entrenadas en conjuntos de datos de cruce de embodiment. Ejemplos incluyen RT-2 (Google DeepMind), OpenVLA, Octo y pi0 (Inteligencia Física). Los modelos base para robótica son atractivos porque pueden aprovechar el preentrenamiento a escala de internet, soportar condicionamiento de lenguaje y generalizar a través de tareas sin reentrenamiento por tarea desde cero. Ver catálogo de modelos SVRC.

VLAPreentrenamientoGeneralización

Cinemática Directa (FK)

La cinemática directa calcula la pose del efector final en el espacio cartesiano dado los ángulos de las articulaciones del robot (o desplazamientos para articulaciones prismáticas). Para un robot de cadena serial, FK se calcula multiplicando una secuencia de matrices de transformación homogéneas (una por articulación), típicamente derivadas de parámetros de Denavit-Hartenberg (DH) o una descripción URDF. FK siempre tiene una solución única: dados los ángulos de las articulaciones, hay exactamente una pose del efector final, a diferencia del problema inverso (IK), que puede tener cero, una o muchas soluciones. FK se utiliza en simulación, verificación de colisiones, visualización y monitoreo del estado del robot en tiempo real.

CinemáticaControl

G

Generalización (política de robot)

La generalización mide qué tan bien una política de robot se desempeña en objetos, escenas o tareas que no ha visto durante el entrenamiento. Es el desafío central del aprendizaje de robots: una política que memoriza demostraciones de entrenamiento pero falla en instancias nuevas no tiene valor práctico. Los investigadores distinguen la generalización de objetos (nuevas instancias de categorías conocidas), la generalización de categorías (clases de objetos completamente nuevas) y la generalización de tareas (nuevas formulaciones de instrucciones o configuraciones de objetivos). Mejorar la generalización típicamente requiere datos de entrenamiento más grandes y diversos, co-entrenamiento con datos de internet, aleatorización de dominio en simulación y modelo base priors.

PolíticaFrontera de Investigación

Pose de agarre

Una pose de agarre especifica la posición y orientación de 6 grados de libertad de una mano o pinza de robot en relación con un objeto de tal manera que la pinza pueda cerrarse y sostener el objeto de manera segura. La estimación de la pose de agarre se realiza típicamente a partir de datos de profundidad o nubes de puntos utilizando métodos analíticos (por ejemplo, muestreo de agarre antipodal) o detectores aprendidos como GraspNet-1Billion, GQ-CNN o AnyGrasp. Una pose de agarre válida debe ser alcanzable por el robot, libre de colisiones durante el acercamiento y estable bajo las cargas de tarea esperadas. Las métricas de calidad de agarre incluyen cierre de fuerza, estabilidad de contacto y resistencia a esfuerzos específicos de la tarea.

ManipulaciónPercepción

Pinza

Un gripper es la clase más común de robot efector final, diseñado para agarrar y sostener objetos. Los grippers de mandíbula paralela son los más simples y ampliamente utilizados, con dos dedos opuestos impulsados por un motor o neumática. Los grippers de succión utilizan vacío para recoger superficies lisas y planas. Los grippers suaves utilizan materiales conformables (silicona, tela) para adaptarse a objetos irregulares. Las manos multifinger (3-5 dedos) permiten manipulación diestro pero son más difíciles de controlar y más caras. La selección del gripper depende críticamente de la geometría del objeto, las propiedades de la superficie, la carga útil requerida y si se necesita reorientación en la mano.

HardwareEfector Final

H

HDF5 (Formato de Datos Jerárquico v5)

HDF5 es un formato de archivo binario y una biblioteca para almacenar y acceder a grandes conjuntos de datos científicos estructurados de manera eficiente. En robótica, HDF5 es el contenedor estándar para conjuntos de datos de demostración de robots: un solo archivo almacena imágenes de cámara sincronizadas, ángulos de las articulaciones, estados de los grippers, lecturas de fuerza y metadatos en grupos jerárquicos, con E/S en bloques que permite un acceso aleatorio rápido durante el entrenamiento. Los ecosistemas LeRobot y ALOHA utilizan HDF5 de forma nativa. La alternativa Zarr formato ofrece almacenamiento en bloques nativo en la nube con mejor soporte para escrituras concurrentes. La salida de SVRC tuberías de recolección de datos es HDF5 por defecto.

DatosAlmacenamientoIngeniería

Robot Humanoide

Un robot humanoide tiene una estructura corporal similar a la de un humano —típicamente un torso, dos piernas, dos brazos y una cabeza— lo que le permite operar en entornos diseñados para personas y utilizar herramientas humanas. Los humanoides notables incluyen Boston Dynamics Atlas, Agility Robotics Digit, Figure 01 y Tesla Optimus. Los humanoides presentan desafíos de ingeniería extremos: la locomoción bípeda requiere control de equilibrio en tiempo real, y coordinar más de 30 DOF para tareas de loco-manipulación exige control de cuerpo completo. A pesar de esta complejidad, los humanoides están atrayendo enormes inversiones porque su factor de forma se generaliza en diversos lugares de trabajo sin cambios en la infraestructura.

HardwareLocomociónBimanual

Interacción Humano-Robot (HRI)

La interacción humano-robot es un campo interdisciplinario que estudia cómo las personas y los robots se comunican, colaboran y comparten espacio físico de manera efectiva y segura. La investigación en HRI abarca estándares de seguridad (ISO/TS 15066 para robots colaborativos), diseño de interfaces de usuario para teleoperación, instrucciones en lenguaje natural, movimiento legible del robot (haciendo que la intención del robot sea comprensible para los transeúntes) y robótica social (utilizando la mirada, gestos y habla para la comunicación no verbal). En implementaciones industriales de co-bots, HRI determina directamente si los trabajadores aceptan y utilizan efectivamente los robots a su lado. Un buen diseño de HRI reduce accidentes, mejora el rendimiento y disminuye la carga de entrenamiento en el lado humano.

SeguridadColaboración

I

Aprendizaje por Imitación (IL)

El aprendizaje por imitación es una familia de métodos de aprendizaje automático que entrenan políticas de robots a partir de demostraciones humanas en lugar de funciones de recompensa diseñadas. La forma más simple es clonación conductual (regresión supervisada sobre pares estado-acción). Variantes más avanzadas —DAgger (corrección iterativa), GAIL (imitación adversarial) e IRL (recuperación de una función de recompensa)— abordan el cambio de distribución y los problemas de especificación de recompensa que afectan a la BC pura. IL se ha convertido en el paradigma dominante para enseñar manipulación diestro porque la ingeniería de recompensas para manipulación compleja es extremadamente difícil, mientras que la recolección de demostraciones humanas es manejable a gran escala a través de teleoperaciónVer el artículo completo de inmersión.

Concepto CentralPolíticaDatos

Cinemática Inversa (IK)

La cinemática inversa resuelve los ángulos de las articulaciones que colocan el efector final de un robot en una pose cartesiana deseada. A diferencia de cinemática directa, IK puede tener cero, uno o infinitas soluciones dependiendo de la estructura cinemática del robot y la pose objetivo. Existen solucionadores analíticos de IK para configuraciones estándar de 6-DOF; los métodos numéricos (pseudo-inversa de Jacobiano, Newton-Raphson, basados en optimización) manejan geometrías arbitrarias y robots redundantes. IK se utiliza en planificación de movimiento, mapeo de teleoperación (convirtiendo la pose de la mano del operador en comandos de articulación) y cualquier controlador en espacio cartesiano. Bibliotecas como KDL, IKFast y track-ik se utilizan comúnmente en entornos ROS.

CinemáticaControlPlanificación

Isaac Sim

NVIDIA Isaac Sim es una plataforma de simulación robótica construida sobre el marco Omniverse USD, que proporciona física de alta fidelidad (a través de PhysX 5), renderizado fotorrealista (a través de trazado de rayos RTX) e integración con ROS 2 de forma predeterminada. Está diseñada específicamente para generar datos de entrenamiento sintéticos, probar políticas de robots y realizar investigaciones sobre transferencia de simulación a realidad. Isaac Sim admite la aleatorización de dominio de texturas, iluminación y poses de objetos a gran escala, e integra el marco de aprendizaje por refuerzo Isaac Lab de NVIDIA. Su física acelerada por GPU permite entrenar políticas de RL con miles de instancias de simulación paralelas. Aprende más en la Página de recursos de SVRC Isaac Sim.

SimulaciónDatos SintéticosHerramienta

J

Espacio de Articulaciones (Espacio de Configuración)

El espacio de articulaciones (también llamado espacio de configuración o C-espacio) es el espacio de todos los posibles vectores de ángulos de articulación para un robot. Un punto en el espacio de articulaciones especifica de manera única la configuración completa del robot. Los algoritmos de planificación de movimiento como RRT y PRM trabajan en el espacio de articulaciones para encontrar caminos libres de colisiones entre configuraciones, ya que la verificación de colisiones es más directa allí que en el espacio cartesiano. Muchas políticas de RL producen posiciones o velocidades de articulaciones directamente en el espacio de articulaciones, mientras que las políticas de aprendizaje por imitación a menudo operan en espacio cartesiano para una mejor alineación con el demostrador humano. Ver el artículo sobre el espacio de articulaciones.

CinemáticaPlanificación

Torque de Articulación

El par de articulación es la fuerza de rotación aplicada por un motor en una articulación de robot, medida en Newton-metros (Nm). Los robots controlados por par (en oposición a los controlados por posición) pueden regular las fuerzas de contacto directamente, lo que permite comportamientos conformes como ceder cuando se empujan y controlar con precisión las fuerzas de ensamblaje. La detección de par en cada articulación es una característica clave de los robots colaborativos (cobots) como el Franka Panda, la serie UR de Universal Robots y el Kuka iiwa, lo que permite una colaboración segura entre humanos y robots y un control conforme de todo el cuerpo. Aprender políticas que produzcan pares de articulación en lugar de posiciones requiere un entrenamiento cuidadoso para evitar oscilaciones inestables.

ControlHardwareFuerza

K

Cadena cinemática

Una cadena cinemática es una serie de enlaces de cuerpo rígido conectados por articulaciones que juntos forman la estructura mecánica de un robot. Una cadena abierta (brazo robótico en serie) tiene un extremo libre (el efector final), lo que hace que la cinemática directa sea sencilla. Una cadena cerrada (robot paralelo, hexápodo) tiene múltiples lazos que proporcionan mayor rigidez y velocidad, pero requieren cinemáticas más complejas. La cadena cinemática determina el espacio de trabajo del robot, las singularidades y la matriz Jacobiana utilizada para el control cartesiano. Los archivos URDF describen cadenas cinemáticas como un árbol de enlaces y articulaciones para software de simulación y control.

CinemáticaMecánica

Enseñanza cinestésica

La enseñanza cinestésica (también llamada guía directa o por la nariz) es un método de programación de robots donde un humano agarra físicamente el brazo del robot y lo mueve a través de la trayectoria de movimiento deseada mientras el robot registra la trayectoria. Requiere que el robot sea retroalimentable (baja fricción en las articulaciones y conformidad) para que el operador pueda moverlo con un esfuerzo mínimo. La enseñanza cinestésica es intuitiva y no requiere hardware externo, pero está limitada a tareas que el operador puede demostrar físicamente, y produce solo datos proprioceptivos (sin observaciones de cámara de muñeca) a menos que se graben cámaras simultáneamente. El modo de compensación de gravedad en robots controlados por par como el Franka Panda hace que la enseñanza cinestésica sea práctica.

Recolección de DatosAprendizaje por Imitación

L

Política condicionada por lenguaje

Una política condicionada por lenguaje toma una instrucción en lenguaje natural (por ejemplo, "recoge la taza roja y colócala en la bandeja") como una entrada adicional junto con observaciones visuales, lo que permite que una única red de políticas realice múltiples tareas seleccionadas en tiempo de ejecución sin necesidad de reentrenamiento. La condicionamiento por lenguaje se implementa típicamente codificando instrucciones con un modelo de lenguaje preentrenado (CLIP, T5, PaLM) y fusionando la incrustación resultante con características de imagen. Modelos VLA como RT-2, OpenVLA y pi0 están condicionados por lenguaje por diseño. Este enfoque reduce la necesidad de entrenar políticas separadas por tarea y apoya la generalización de cero disparos a nuevas formulaciones de instrucciones.

VLAModelo fundamentalGeneralización

Espacio latente

Un espacio latente es una representación comprimida y de menor dimensión de datos aprendida por una red neuronal: la salida de un codificador que captura las características más relevantes para la tarea de una observación. En el aprendizaje de robots, los espacios latentes se utilizan en VAEs (autoencoders variacionales) para aprender representaciones estructuradas de escenas visuales, en modelos del mundo para predecir estados futuros, y en políticas basadas en CVAE (como ACT) para codificar distribuciones de acción multimodal. Un espacio latente bien estructurado coloca observaciones semánticamente similares cerca unas de otras, lo que permite la interpolación, la planificación y la augmentación de datos en el dominio latente en lugar de en el espacio de píxeles en bruto.

Aprendizaje de representacionesPolítica

LeRobot

LeRobot es la biblioteca de código abierto de Hugging Face para el aprendizaje de robots, que proporciona implementaciones estandarizadas de algoritmos de aprendizaje por imitación (ACT, Política de Difusión, TDMPC), un formato de conjunto de datos unificado, herramientas de visualización y pesos de modelos preentrenados. Su objetivo es reducir la barrera de entrada para la investigación en aprendizaje de robots al proporcionar un único marco cohesivo análogo a lo que los Transformers hicieron por el PLN. LeRobot se integra con el Hugging Face Hub para compartir conjuntos de datos y modelos, y admite entornos de robots simulados (gymnasium-robotics, MuJoCo) y físicos. El kit de robot de bajo costo SO-100 se lanzó junto a él.

HerramientaCódigo abiertoAprendizaje por Imitación

Conjunto de datos LeRobot HF

El formato de conjunto de datos LeRobot es un esquema estandarizado para datos de demostración de robots alojados en el Hugging Face Hub. Cada conjunto de datos consiste en archivos Parquet (para series temporales escalares: posiciones de articulaciones, acciones, recompensas, banderas de finalización) más fragmentos de video MP4 comprimidos para flujos de cámara, todos indexados por episodio y cuadro. Un meta/info.json archivo describe nombres de cámaras, tipo de robot, fps y estadísticas de datos utilizadas para la normalización. Este formato permite que cualquier algoritmo compatible con LeRobot cargue cualquier conjunto de datos publicado con una sola línea de código, lo que permite una rápida experimentación entre conjuntos de datos. Docenas de conjuntos de datos de manipulación y manipulación móvil ya se han publicado en este formato.

DatosEstándarCódigo abierto

M

Manipulación

La manipulación se refiere a la interacción física intencionada con objetos: recoger, colocar, ensamblar, doblar, insertar, verter y tareas similares. La manipulación robótica es una de las áreas de investigación más activas en IA encarnada, porque incluso las tareas cotidianas simples (cargar un lavavajillas, abrir un paquete) requieren una percepción rica, un control motor preciso y una planificación de agarre robusta. La dificultad de la manipulación varía desde la simple recogida y colocación con objetos conocidos en configuraciones fijas, pasando por el ensamblaje rico en contacto, hasta la reorientación completamente diestro en la mano con objetos novedosos en escenas no estructuradas. SVRC's servicios de datos se especializan en recopilar demostraciones de manipulación para entrenamiento y evaluación.

Concepto CentralTarea

MoveIt

MoveIt es el marco de planificación de movimiento de código abierto más utilizado para brazos robóticos, desarrollado originalmente en Willow Garage y ahora mantenido por PickNik Robotics. MoveIt 2 funciona en ROS 2 y proporciona planificadores (OMPL, CHOMP, PILZ), planificación de trayectorias cartesianas, verificación de colisiones contra la escena de planificación de MoveIt, complementos de cinemática (KDL, IKFast, TracIK) e integración de planificación de agarre. Es la capa de middleware estándar entre una política de aprendizaje robótico (que produce poses o puntos de referencia deseados del efector final) y el controlador de articulaciones de bajo nivel que ejecuta trayectorias suaves y sin colisiones en el robot físico.

HerramientaPlanificaciónROS

Aprendizaje multitarea

El aprendizaje multitarea entrena una única política en demostraciones de múltiples tareas distintas simultáneamente, con la expectativa de que las representaciones compartidas aprendidas a través de las tareas mejoren el rendimiento en cada tarea individual y permitan la generalización a nuevas tareas. En robótica, esto a menudo significa entrenar en cientos de tareas con objetos, objetivos y entornos variados. El desafío clave es equilibrar las contribuciones del gradiente de diferentes tareas (interferencia de gradiente) y asegurar que la política pueda distinguir entre tareas en el momento de la inferencia, típicamente a través de condicionamiento de lenguaje o identificadores de tareas one-hot. Las políticas multitarea son un requisito previo para asistentes robóticos de propósito general.

PolíticaGeneralizaciónEntrenamiento

N

Política neuronal

Una política neural es una política de control robótico parametrizada por una red neuronal que mapea observaciones (imágenes, propriocepción, lenguaje) directamente a acciones (posiciones de articulaciones, deltas cartesianas, comandos de agarre). En contraste con los pipelines de planificación de movimiento clásicos, las políticas neuronales aprenden el mapeo de extremo a extremo a partir de datos sin representaciones intermedias diseñadas a mano. Las políticas neuronales modernas utilizan codificadores convolucionales para visión, transformadores para modelado de secuencias y arquitecturas como ACT, Diffusion Policy o VLA como base para la generación de acciones. Una propiedad clave de las políticas neuronales es que pueden ser entrenadas a partir de demostraciones o señales de recompensa, lo que les permite manejar tareas demasiado complejas para controladores codificados a mano.

PolíticaAprendizaje profundo

Manipulación no prensil

La manipulación no prensil se refiere a manipular objetos sin agarrarlos, utilizando en su lugar estrategias de contacto como empujar, rodar, pivotar, voltear, inclinar u otras que aprovechan la gravedad y la fricción de la superficie. Por ejemplo, empujar una caja a través de una mesa para posicionarla, o empujar un clavija hacia arriba antes de agarrarla. Las estrategias no prensiles pueden mover objetos a configuraciones que se pueden agarrar, reposicionar elementos demasiado grandes para ser agarrados, o trabajar en escenas desordenadas donde un enfoque de agarre es inviable. Planificar acciones no prensiles requiere modelar la mecánica de objetos cuasi-estáticos o dinámicos y la física de contacto, lo que lo convierte en un tema de investigación activo en la intersección de la manipulación y la planificación de movimiento.

ManipulaciónPlanificación

O

Espacio de observación

El espacio de observación define todas las entradas de sensores disponibles para la política robótica en cada instante de tiempo. Las modalidades comunes incluyen imágenes RGB de cámaras de muñeca o aéreas, mapas de profundidad de sensores de luz estructurada o estéreo, estado proprioceptivo (posiciones de articulaciones, velocidades, torques), estado del agarre, pose del efector final, lecturas táctiles y entradas de especificación de tareas como incrustaciones de lenguaje o imágenes de objetivos. El diseño del espacio de observación afecta profundamente el rendimiento y la generalización de la política: observaciones más ricas llevan más información pero aumentan la complejidad del modelo, el tiempo de entrenamiento y el riesgo de sobreajuste a características visuales irrelevantes.

PercepciónPolítica

Control de lazo abierto

El control de lazo abierto ejecuta una trayectoria preplanificada sin utilizar retroalimentación de sensores durante la ejecución: el robot simplemente sigue las posiciones o velocidades comandadas sin importar lo que realmente suceda. Esto es apropiado para tareas altamente repetibles en entornos controlados, como el mecanizado CNC o la recogida y colocación en un transportador fijo. El control de lazo abierto es rápido y simple, pero falla cuando ocurren perturbaciones, porque no se toma ninguna acción correctiva. En contraste, el control de lazo cerrado (retroalimentación) compara continuamente el estado real con el estado deseado y aplica comandos correctivos, lo que lo hace mucho más robusto para el aprendizaje robótico en entornos variables.

Control

Open X-Embodiment

Open X-Embodiment (OXE) es un conjunto de datos de demostración robótica a gran escala ensamblado por Google DeepMind y 33 instituciones de investigación, que comprende más de 1 millón de episodios robóticos de 22 diferentes encarnaciones robóticas y más de 527 habilidades. Fue creado para permitir co-entrenamiento a través de encarnaciones, la hipótesis siendo que la experiencia robótica diversa enseña representaciones de manipulación más ricas que los conjuntos de datos de un solo robot por sí solos. RT-X, el modelo entrenado en OXE, demostró transferencia positiva a través de encarnaciones y mejoró el rendimiento en tareas retenidas en comparación con líneas base de una sola encarnación. Los datos de OXE están disponibles públicamente y han catalizado una ola de investigación robótica cruzada entre encarnaciones.

Conjunto de datosModelo fundamentalMulti-encarnación

P

Carga útil

La carga útil es la masa máxima (incluido el peso de cualquier efector final y herramienta) que un brazo robótico puede llevar mientras mantiene su precisión posicional y rendimiento dinámico nominal. Las especificaciones de carga útil suelen variar desde menos de 1 kg para robots de investigación colaborativa (WidowX 250: 250 g) hasta más de 500 kg para brazos industriales grandes. Críticamente, la carga útil nominal generalmente se cita en el alcance completo con el brazo completamente extendido; a distancias más cercanas y posturas más favorables, los robots a menudo pueden manejar significativamente más. Exceder los límites de carga útil degrada la precisión, acelera el desgaste y puede activar fallos de seguridad o daños físicos. catálogo de hardware SVRC enumera la carga útil para cada robot.

HardwareEspecificaciones

Política (robot)

En el aprendizaje robótico, una política (denotada π) es una función que mapea observaciones a acciones: π(o) → a. La política es el "cerebro" aprendido del robot que determina qué hacer en cada instante dado lo que percibe. Las políticas pueden ser representadas como redes neuronales (políticas neuronales), árboles de decisión, procesos gaussianos o tablas de búsqueda. Pueden ser deterministas (una acción por observación) o estocásticas (una distribución sobre acciones). La calidad de la política se mide por la tasa de éxito de la tarea en diversas condiciones, no solo en demostraciones de entrenamiento. El desafío central del aprendizaje robótico es entrenar políticas que generalicen de manera confiable más allá de su distribución de entrenamiento.

Concepto CentralAprendizaje profundo

Implementación de la política

Una implementación de la política es un episodio único de ejecución de una política entrenada en el robot (o en simulación) desde un estado inicial hasta la finalización de la tarea o el tiempo de espera. Las implementaciones se utilizan para evaluar el rendimiento de la política, recopilar nuevos datos para un entrenamiento adicional (como en DAgger o ajuste fino de RL) y depurar modos de fallo. El número de implementaciones necesarias para una estimación de rendimiento confiable depende de la variabilidad de la tarea: las tareas de alta variabilidad pueden requerir más de 50 implementaciones para obtener una estimación estable de la tasa de éxito. En la investigación, las implementaciones a menudo se categorizan por condición inicial (objetos/escenas dentro de la distribución vs. fuera de la distribución) para caracterizar la generalización.

EvaluaciónPolítica

Pre-entrenamiento

El pre-entrenamiento es la fase de desarrollo del modelo en la que una red neuronal se entrena en un conjunto de datos grande y diverso antes del ajuste fino específico de la tarea. Para los modelos de base en robótica, el pre-entrenamiento puede ocurrir en datos de visión-lenguaje a escala de internet (imágenes, video, texto), conjuntos de datos de robots de cruce de encarnaciones (Open X-Embodiment), datos de simulación sintética o una combinación. El modelo preentrenado aprende representaciones generales ricas de objetos, acciones y conceptos que se transfieren a tareas robóticas posteriores con muchas menos demostraciones que el entrenamiento desde cero. El pre-entrenamiento es el mecanismo detrás del éxito de los modelos VLA como RT-2, que se beneficia tanto del pre-entrenamiento robótico como del pre-entrenamiento a escala de internet.

Modelo fundamentalEntrenamientoAprendizaje por transferencia

Q

Función Q (Función de valor de acción)

La función Q Q(s, a) estima la recompensa acumulativa descontada esperada que un agente recibirá al tomar la acción a en el estado s y luego seguir una política dada. Las funciones Q son centrales para los algoritmos de aprendizaje por refuerzo como DQN (acciones discretas) y SAC, TD3 y DDPG (acciones continuas). En el aprendizaje por refuerzo robótico, aprender funciones Q precisas para tareas de manipulación a largo plazo es un desafío porque las recompensas son escasas y el espacio de estado-acción es de alta dimensión. Trabajos recientes en aprendizaje por refuerzo fuera de línea (IQL, CQL) utilizan funciones Q para extraer políticas de conjuntos de datos fijos sin interacción en línea, cerrando la brecha entre el aprendizaje por imitación y el aprendizaje por refuerzo.

Aprendizaje por refuerzoFunción de valor

Manipulación cuasi-estática

La manipulación cuasi-estática asume que el movimiento es lo suficientemente lento como para que las fuerzas inerciales y dinámicas sean despreciables: el sistema está efectivamente en equilibrio estático en cada instante. Esta simplificación permite un modelado de mecánica de contacto manejable para planificar acciones de empuje, deslizamiento, pivoteo y re-agarrado en mano. Muchos puntos de referencia de manipulación robótica (incluidas la mayoría de las tareas de recogida y colocación en mesa) operan en el régimen cuasi-estático. Cuando las tareas implican lanzamientos rápidos, capturas dinámicas o ensamblajes a alta velocidad, las suposiciones cuasi-estáticas se rompen y se requieren dinámicas de cuerpo rígido completas con simulación de contacto (por ejemplo, MuJoCo, Isaac Sim).

ManipulaciónMecánica

R

Transferencia de real a sí

La transferencia de real a sim (el complemento de si-real) implica construir o calibrar una simulación para que coincida con el mundo real lo más cerca posible, esencialmente construyendo un gemelo digital de las condiciones reales. Esto se utiliza para reproducir casos de fallo reales en simulación, generar datos de entrenamiento sintéticos adicionales ajustados a las características de los sensores reales y probar actualizaciones de políticas de manera segura antes de la implementación. Las técnicas incluyen reconstrucción de escenas fotogramétricas, identificación de parámetros físicos (identificación del sistema) y métodos de renderizado neuronal (NeRF, 3D Gaussian Splatting) para igualar la apariencia de la cámara. Los pipelines precisos de real a sim reducen drásticamente el número de experimentos físicos necesarios para la iteración de políticas.

SimulaciónGemelo DigitalDatos

Rango

El alcance es la distancia máxima desde la base de un brazo robótico hasta cualquier punto que su efector final puede alcanzar dentro de su espacio de trabajo. Para un brazo serial, el alcance máximo es igual a la suma de todas las longitudes de los enlaces. El alcance efectivo en un despliegue es menor, teniendo en cuenta los límites de las articulaciones, la evitación de colisiones internas y la necesidad de acercarse a los objetos desde múltiples orientaciones. El alcance determina qué diseños de estaciones de trabajo y colocaciones de objetos son factibles. Al seleccionar robots para una tarea, los ingenieros deben confirmar que el espacio de trabajo requerido (incluyendo todas las direcciones de aproximación para el agarre) se encuentra dentro del sobre alcanzable del robot con una precisión aceptable.

HardwareEspecificacionesCinemática

Búfer de reproducción

Un búfer de reproducción (o memoria de reproducción de experiencias) es un conjunto de datos de transiciones pasadas (estado, acción, recompensa, siguiente estado, hecho) recopiladas por un agente de RL durante la interacción con el entorno. En cada paso de entrenamiento, se muestrean mini-lotes aleatorios del búfer para entrenar la función de valor o la política, rompiendo correlaciones temporales que podrían desestabilizar las actualizaciones de gradiente. En RL offline y aprendizaje robótico, el búfer de reproducción es reemplazado por un conjunto de datos fijo de demostraciones humanas o rollouts previamente recopilados. La reproducción de experiencias priorizadas pondera el muestreo por error de diferencia temporal para enfocar el entrenamiento en transiciones informativas.

Aprendizaje por refuerzoDatos

Función de recompensa

La función de recompensa define el objetivo de aprendizaje para un agente de aprendizaje por refuerzo: asigna una señal de recompensa escalar r(s, a, s') a cada transición (estado, acción, siguiente estado), indicando al agente cuán buenas o malas son sus acciones. El diseño de la función de recompensa es una de las partes más difíciles de aplicar RL a la robótica: las recompensas escasas (1 en caso de éxito, 0 de lo contrario) son limpias pero conducen a un aprendizaje lento; las recompensas densas (por ejemplo, distancia negativa al objetivo) guían el aprendizaje pero pueden ser manipuladas de maneras inesperadas (hackeo de recompensas). Las alternativas incluyen el aprendizaje de recompensas a partir de demostraciones (IRL, RLHF), métricas de simulación específicas de tareas y modelos de preferencias aprendidos. El aprendizaje por imitación elude por completo el problema del diseño de recompensas al aprender directamente de las demostraciones.

Aprendizaje por refuerzoConcepto Central

S

Transferencia de simulación a real

La transferencia de simulación a realidad es el proceso de entrenar una política robótica completamente o principalmente en simulación y luego desplegarla en un robot físico, con el objetivo de que la política funcione sin (o con datos del mundo real mínimos) adicionales. El desafío principal son las brecha de realidad — diferencias en la fidelidad física, apariencia visual, ruido de sensores y dinámicas no modeladas entre la simulación y el mundo real. Las técnicas clave de mitigación incluyen la aleatorización de dominio (aleatorizando parámetros de simulación durante el entrenamiento), identificación del sistema (calibrando la simulación para que coincida con el hardware real) y ajuste fino adaptativo con pequeñas cantidades de datos reales. Ver el artículo detallado.

Aprendizaje por transferenciaSimulaciónDespliegue

Espacio de estado

El espacio de estado es el conjunto completo de configuraciones en las que un robot y su entorno pueden estar. En RL, el estado de Markov s codifica toda la información necesaria para predecir recompensas futuras y transiciones de estado; idealmente, una descripción completa del mundo. En la práctica, el agente solo tiene acceso a observaciones parciales (imágenes, ángulos de las articulaciones) que pueden no capturar completamente el estado (por ejemplo, objetos ocultos, parámetros físicos desconocidos). Diseñar un espacio de observación que aproxime bien el estado de Markov mientras se mantiene computacionalmente manejable es un desafío clave en el diseño de sistemas de aprendizaje robótico.

Aprendizaje por refuerzoControl

Robótica quirúrgica

La robótica quirúrgica aplica sistemas robóticos a procedimientos médicos, siendo más famosa a través de la plataforma da Vinci de Intuitive Surgical para cirugía laparoscópica mínimamente invasiva. Los robots quirúrgicos proporcionan escalado de movimiento (traduciendo grandes movimientos del operador a movimientos de instrumentos submilimétricos), filtración de temblores y visualización mejorada dentro del paciente. La investigación emergente explora subtareas quirúrgicas autónomas (suturas, retracción de tejidos), guía asistida por IA y telecirugía a través de enlaces 5G de baja latencia. La aprobación regulatoria (FDA 510(k) o PMA para EE. UU.) añade una carga de validación sustancial. La robótica quirúrgica se sitúa en la intersección de teleoperación, HRI, y manipulación rica en contacto.

DoctorTeleoperaciónAplicación

T

Aprendizaje parametrizado por tareas

El aprendizaje parametrizado por tareas codifica demostraciones en relación con múltiples marcos de coordenadas o parámetros de tarea (por ejemplo, la pose del objeto, una ubicación objetivo, un marco de obstáculos) en lugar de en un marco de mundo fijo. Al ejecutar, la política se adapta automáticamente a nuevas configuraciones de objetos y objetivos sin necesidad de reentrenamiento, porque ha aprendido el movimiento en relación con referencias relevantes para la tarea. Los Modelos de Mezcla Gaussiana parametrizados por tareas (TP-GMM) y los primitivos de movimiento kernelizados son implementaciones clásicas. Este enfoque proporciona una fuerte generalización geométrica para tareas estructuradas de recoger y colocar, aunque requiere que los marcos de tarea sean identificados y rastreados en tiempo de ejecución.

Aprendizaje por ImitaciónGeneralizaciónPolítica

Teleoperación

La teleoperación es el control remoto de un robot por un operador humano, utilizado tanto para la ejecución directa de tareas (robots quirúrgicos, robótica espacial, desactivación de bombas) como como el método principal para recopilar demostraciones de aprendizaje por imitación de alta calidad. En el aprendizaje robótico, una configuración común utiliza una arquitectura de líder-seguidor: el operador mueve un brazo ligero líder y el robot (seguidor) sigue al líder en tiempo real. Los sistemas de teleoperación basados en VR (utilizando seguimiento de manos o controladores) son cada vez más populares ya que son más ergonómicos y permiten un mayor rendimiento de datos. SVRC proporciona teleoperación profesional servicios de recolección de datos para equipos de aprendizaje robótico empresarial.

Recolección de DatosAprendizaje por ImitaciónHardware

Trayectoria

Una trayectoria es una secuencia de estados robóticos parametrizada en el tiempo (ángulos de las articulaciones o poses cartesianas) que describe cómo se mueve el robot desde una configuración inicial a un objetivo. Las trayectorias pueden ser generadas por planificadores de movimiento (planificando un camino libre de colisiones y luego parametrizándolo en el tiempo para una ejecución suave), por grabación de teleoperación (capturando el movimiento del operador a una frecuencia fija) o predichas directamente por una política neuronal. La suavidad de la trayectoria y la continuidad de la velocidad son importantes para la seguridad física del robot; discontinuidades abruptas causan estrés mecánico y pueden activar paradas de seguridad. Las representaciones de trayectoria incluyen splines, primitivos de movimiento dinámico (DMPs) y secuencias de puntos de paso discretos.

PlanificaciónControlDatos

Aprendizaje por transferencia

El aprendizaje por transferencia en robótica implica tomar un modelo preentrenado en un dominio (por ejemplo, datos de visión-lenguaje de internet, simulación o un robot diferente) y adaptarlo a una tarea o robot objetivo con datos adicionales limitados. El ajuste fino de las capas finales de un backbone preentrenado en datos de demostración robótica es el enfoque más común; el ajuste fino completo de todos los pesos se utiliza cuando hay suficientes datos de robot disponibles. El aprendizaje por transferencia es el mecanismo que hace modelos de fundación práctico para la robótica; la alternativa de entrenar desde cero solo con datos de robot requeriría millones de demostraciones. Ver también preentrenamiento, transferencia de simulación a realidad.

Modelo fundamentalEntrenamiento

U

URDF (Formato Unificado de Descripción de Robots)

URDF es un formato de archivo basado en XML que describe las propiedades cinemáticas y dinámicas de un robot: enlaces (cuerpos rígidos con masa, inercia y mallas visuales/colisiones) y juntas (las conexiones entre enlaces, con tipo, eje, límites y parámetros de amortiguación). URDF es el formato estándar de descripción de robots en ROS y es compatible con todas las principales plataformas de simulación (Isaac Sim, MuJoCo, Gazebo, PyBullet). Permite cargar la cinemática del robot en planificadores de movimiento como MoveIt, visualizar el robot en RViz e instanciar modelos de simulación física. XACRO (lenguaje de macros XML) se utiliza comúnmente para parametrizar y modularizar archivos URDF para robots complejos. OpenArm y la mayoría del hardware SVRC tienen modelos URDF disponibles públicamente.

HerramientaEstándarSimulación

V

VLA (Modelo de Visión-Lenguaje-Acción)

Un modelo de Visión-Lenguaje-Acción es una red neuronal que procesa conjuntamente observaciones visuales (imágenes RGB), instrucciones en lenguaje natural y propriocepción del robot para producir salidas de acción. Los VLA extienden grandes modelos de visión-lenguaje (VLMs como PaLM-E, LLaVA o Gemini) al agregar una cabeza de acción, entrenando al modelo para que produzca posiciones de juntas del robot o deltas de efectores finales junto con sus predicciones de lenguaje. Los VLA notables incluyen RT-2 (tokeniza acciones como tokens de texto y ajusta un VLM), OpenVLA (código abierto, 7B parámetros, entrenado en Open X-Embodiment) y pi0 (VLA de coincidencia de flujo de Physical Intelligence). Ver el artículo de VLA y VLM y el catálogo de modelos SVRC.

Modelo fundamentalLenguajeConcepto Central

ViperX

ViperX es una serie de brazos robóticos de 6-DOF fabricados por Trossen Robotics, ampliamente utilizados en la investigación académica de aprendizaje robótico debido a su bajo costo, soporte ROS y compatibilidad con el ecosistema de servos DYNAMIXEL. El ViperX 300 (con un alcance de 300 mm) y el ViperX 300-S están entre los brazos de investigación más comunes que se encuentran en configuraciones de aprendizaje por imitación y son los brazos seguidores en el original ALOHA sistema. Los brazos ViperX tienen una carga útil modesta (~750 g) y precisión en comparación con los robots industriales, pero ofrecen un punto de entrada accesible para la investigación en manipulación. Navega por la tienda de hardware tienda de hardware de SVRC

HardwareRobot de Investigación

Servicio visual

El servoing visual utiliza retroalimentación de la cámara en un controlador de bucle cerrado para guiar a un robot hacia un objetivo definido en el espacio de imagen (Servoing Visual Basado en Imágenes, IBVS) o en el espacio 3D estimado a partir de imágenes (Servoing Visual Basado en Posición, PBVS). En IBVS, el controlador minimiza el error entre las características de imagen detectadas (puntos clave, cuadros delimitadores de objetos) y sus posiciones deseadas en el plano de imagen, sin calcular explícitamente las poses 3D. El servoing visual es atractivo porque compensa directamente los errores de calibración y el desalineamiento cámara-robot. Las variantes modernas de aprendizaje profundo entrenan redes neuronales para que produzcan comandos de velocidad de servoing directamente a partir de imágenes en bruto, lo que permite una alineación robusta con objetos novedosos.

ControlPercepciónBucle cerrado

W

Punto de paso

Un punto de paso es una configuración intermedia (ángulos de juntas o pose cartesiana) por la que debe pasar la trayectoria de un robot en el camino desde el inicio hasta el objetivo. Los puntos de paso permiten a los programadores y planificadores guiar el camino del robot a través de poses específicas, por ejemplo, para evitar un obstáculo, acercarse a un objeto desde una dirección segura o secuenciar a través de un procedimiento de ensamblaje de múltiples pasos. En el aprendizaje robótico, las políticas de alto nivel a veces producen puntos de paso que un planificador de movimiento de bajo nivel interpola en trayectorias de juntas suaves, combinando los beneficios de generalización de las políticas aprendidas con las garantías de seguridad de la planificación clásica.

PlanificaciónTrayectoria

Control de cuerpo completo (WBC)

El control de cuerpo completo coordina todas las articulaciones de un robot bípedo o humanoide simultáneamente para satisfacer múltiples objetivos en competencia: mantener el equilibrio, seguir objetivos del efector final, evitar límites de articulación y gestionar fuerzas de contacto, resuelto como un problema de optimización restringida en tiempo real (típicamente un QP). El WBC es esencial para humanoides y manipuladores bípedos porque la base no está fija: el movimiento del brazo desplaza el centro de masa y debe ser compensado por ajustes en las piernas y el torso. Los marcos de WBC como Drake, Pinocchio y OCS2 son comúnmente utilizados en la investigación humanoide. La plataforma Mobile ALOHA y Boston Dynamics Atlas dependen de controladores de cuerpo completo para la loco-manipulación. Ver artículo del WBC.

ControlHumanoideLocomoción

Espacio de trabajo

El espacio de trabajo de un robot es el conjunto de todas las posiciones (y orientaciones) que el efector final puede alcanzar dado la estructura cinemática del robot y los límites de las articulaciones. El espacio de trabajo alcanzable es todas las posiciones que el efector final puede alcanzar en al menos una orientación; el espacio de trabajo diestro es el subconjunto más pequeño alcanzable en cada orientación — la región más útil para tareas de manipulación que requieren ángulos de aproximación arbitrarios. El análisis del espacio de trabajo informa la disposición de las celdas (qué tan separadas deben estar las robots y las piezas), la selección de robots (ajustando el alcance a la disposición de la tarea) y la planificación de movimientos (identificando caminos sin singularidades a través del espacio de trabajo).

CinemáticaHardwarePlanificación

Z

Zarr (formato de datos)

Zarr es un formato de código abierto para almacenar arreglos n-dimensionales en forma de bloques comprimidos, diseñado para cargas de trabajo nativas de la nube y de E/S paralelas. En robótica, Zarr se utiliza para almacenar grandes conjuntos de datos de demostración de robots (imágenes, estados de articulaciones, acciones) en un formato que se puede leer de manera eficiente desde almacenamiento de objetos (S3, GCS) sin descargar archivos completos. A diferencia de HDF5, Zarr admite escrituras concurrentes, lo que lo hace adecuado para tuberías de recolección de datos distribuidas. Zarr v3 estandarizó el formato y agregó soporte para fragmentación (combinando muchos bloques pequeños en menos archivos grandes), lo que mejora la eficiencia del almacenamiento en la nube. Proyectos como LeRobot y varios conjuntos de datos de vehículos autónomos han adoptado Zarr para el alojamiento de conjuntos de datos a gran escala.

DatosAlmacenamientoIngeniería

Generalización de cero disparos

La generalización de cero disparos es la capacidad de una política entrenada para realizar con éxito tareas, objetos o entornos que nunca ha visto explícitamente durante el entrenamiento, sin ningún ajuste adicional o demostraciones. La transferencia verdadera de cero disparos es un objetivo principal de los modelos de fundación de robots: una política que generaliza de cero disparos a nuevos objetos domésticos o nuevas instrucciones de lenguaje reduciría drásticamente la carga de recolección de datos. Los modelos VLA actuales muestran una prometedora generalización de lenguaje de cero disparos (entendiendo frases novedosas de tipos de tareas conocidas) pero aún luchan con categorías de objetos verdaderamente novedosas o habilidades de manipulación completamente nuevas. Mejorar el rendimiento de cero disparos es la motivación central para escalar conjuntos de datos de robots y tamaños de modelos. Ver también artículo de Transferencia de cero disparos.

GeneralizaciónModelo fundamentalFrontera de Investigación

No hay términos que coincidan con su búsqueda

Intente un término más corto o verifique la ortografía. Todos los 65 términos están listados arriba cuando se borra la búsqueda.

¿Necesita datos de robots para su proyecto de aprendizaje?

Recopilamos demostraciones de alta calidad, listas para el aprendizaje, para el aprendizaje por imitación y RL — desde manipulación en mesas hasta tareas móviles bimanuales.

Servicios de Datos Contáctanos