Aprendizaje por Imitación
Aprendizaje a partir de demostraciones — robots que replican el comportamiento humano a partir de datos de teleoperación.
¿Qué es el Aprendizaje por Imitación?
El aprendizaje por imitación (IL) es un paradigma donde un robot aprende a realizar tareas observando y replicando demostraciones de expertos. En lugar de aprender a partir de señales de recompensa (como en el aprendizaje por refuerzo), el robot aprende de pares de estado-acción recopilados durante la teleoperación humana o la enseñanza cinestésica.
Enfoques Clave
- Clonación de Comportamiento (BC) — Aprendizaje supervisado a partir de pares de (observación, acción). Simple pero propenso a cambios en la distribución.
- DAgger — Recolección de datos iterativa: ejecutar política, obtener correcciones de expertos, reentrenar. Reduce el cambio de distribución.
- Aprendizaje por Refuerzo Inverso (IRL) — Inferir la función de recompensa a partir de demostraciones, luego optimizar la política.
Recursos relacionados
- Conjuntos de Datos de Código Abierto — DROID, BridgeData, ALOHA, Open X-Embodiment
- Plantillas de políticas — ACT, Política de Difusión, OpenVLA, Octo
- Servicios de Datos — Recopilamos demostraciones listas para aprender para tus tareas