Aprendizado por Imit ação

Aprendendo com demonstrações — robôs que replicam o comportamento humano a partir de dados de teleoperação.

O que é Aprendizado por Imit ação?

O aprendizado por imitação (IL) é um paradigma onde um robô aprende a realizar tarefas observando e replicando demonstrações de especialistas. Em vez de aprender a partir de sinais de recompensa (como no aprendizado por reforço), o robô aprende a partir de pares de estado-ação coletados durante a teleoperação humana ou ensino cinestésico.

Abordagens Chave

Clonagem de Comportamento (BC) — Aprendizado supervisionado a partir de pares (observação, ação). Simples, mas propenso a mudanças de distribuição.
DAgger — Coleta de dados iterativa: executar política, obter correções de especialistas, re-treinar. Reduz a mudança de distribuição.
Aprendizado por Reforço Inverso (IRL) — Inferir a função de recompensa a partir de demonstrações, então otimizar a política.

Recursos Relacionados

Conjuntos de Dados de Código Aberto — DROID, BridgeData, ALOHA, Open X-Embodiment
Modelos de Política — ACT, Diffusion Policy, OpenVLA, Octo
Serviços de Dados — Coletamos demonstrações prontas para aprendizado para suas tarefas