Definición

Las políticas basadas en transformadores aplican mecanismos de atención al control del robot. Pueden procesar entradas heterogéneas: imágenes, propriocepción, instrucciones en lenguaje y historial de acciones a través de un modelo de secuencia unificado. Las arquitecturas clave incluyen RT-1 (acciones tokenizadas con visión EfficientNet), RT-2 (espina dorsal VLM), ACT (transformador de agrupamiento de acciones para control bimanual) y Octo (transformador escalable de cruce de encarnaciones). Los transformadores manejan naturalmente contextos de longitud variable y condicionamiento de múltiples tareas. Su principal desafío en robótica es la latencia de inferencia: el control en tiempo real a 10–50 Hz requiere diseños de modelos eficientes o agrupamiento de acciones para amortizar el cálculo.

Por qué es importante para los equipos de robots

Comprender la política de transformadores es esencial para los equipos que construyen sistemas robóticos del mundo real. Ya sea que esté recopilando datos de demostración, entrenando políticas en simulación o implementando en producción, este concepto afecta directamente su flujo de trabajo y diseño del sistema.