Aprendizado por Imit ação
Aprendendo com demonstrações — robôs que replicam o comportamento humano a partir de dados de teleoperação.
O que é Aprendizado por Imit ação?
O aprendizado por imitação (IL) é um paradigma onde um robô aprende a realizar tarefas observando e replicando demonstrações de especialistas. Em vez de aprender a partir de sinais de recompensa (como no aprendizado por reforço), o robô aprende a partir de pares de estado-ação coletados durante a teleoperação humana ou ensino cinestésico.
Abordagens Chave
- Clonagem de Comportamento (BC) — Aprendizado supervisionado a partir de pares (observação, ação). Simples, mas propenso a mudanças de distribuição.
- DAgger — Coleta de dados iterativa: executar política, obter correções de especialistas, re-treinar. Reduz a mudança de distribuição.
- Aprendizado por Reforço Inverso (IRL) — Inferir a função de recompensa a partir de demonstrações, então otimizar a política.
Recursos Relacionados
- Conjuntos de Dados de Código Aberto — DROID, BridgeData, ALOHA, Open X-Embodiment
- Modelos de Política — ACT, Diffusion Policy, OpenVLA, Octo
- Serviços de Dados — Coletamos demonstrações prontas para aprendizado para suas tarefas