Aprendizaje de Políticas

Mapeo de observaciones a acciones — políticas visuomotoras para el control de robots.

¿Qué es el Aprendizaje de Políticas?

Una política es una función que mapea observaciones (imágenes, estado) a acciones (comandos de articulaciones, agarre). El aprendizaje de políticas entrena este mapeo a partir de datos (imitación) o recompensas (RL). Las políticas visuomotoras utilizan la visión como entrada principal.

Arquitecturas Clave

ACT (Fragmentación de Acción con Transformadores) — Predice fragmentos de acción; ejecución fluida.
Política de Difusión — Difusión de desruido para distribuciones de acción multimodal.
Clonación de Comportamiento — Aprendizaje supervisado simple a partir de demostraciones.
VLA — Modelos de visión-lenguaje-acción (OpenVLA, RT-2) con condicionamiento de lenguaje.

Recursos relacionados

Plantillas de políticas — ACT, Política de Difusión, OpenVLA, Octo
Aprendizaje por Imitación
Servicios de Datos — Datos para entrenar tu política