Aprendizaje por Imitación

Aprendizaje a partir de demostraciones — robots que replican el comportamiento humano a partir de datos de teleoperación.

¿Qué es el Aprendizaje por Imitación?

El aprendizaje por imitación (IL) es un paradigma donde un robot aprende a realizar tareas observando y replicando demostraciones de expertos. En lugar de aprender a partir de señales de recompensa (como en el aprendizaje por refuerzo), el robot aprende de pares de estado-acción recopilados durante la teleoperación humana o la enseñanza cinestésica.

Enfoques Clave

Clonación de Comportamiento (BC) — Aprendizaje supervisado a partir de pares de (observación, acción). Simple pero propenso a cambios en la distribución.
DAgger — Recolección de datos iterativa: ejecutar política, obtener correcciones de expertos, reentrenar. Reduce el cambio de distribución.
Aprendizaje por Refuerzo Inverso (IRL) — Inferir la función de recompensa a partir de demostraciones, luego optimizar la política.

Recursos relacionados

Conjuntos de Datos de Código Abierto — DROID, BridgeData, ALOHA, Open X-Embodiment
Plantillas de políticas — ACT, Política de Difusión, OpenVLA, Octo
Servicios de Datos — Recopilamos demostraciones listas para aprender para tus tareas