Definição

DAgger (Agregação de Conjuntos de Dados) aborda o problema de mudança de distribuição na clonagem de comportamento. Na BC padrão, o aprendiz vê apenas estados da distribuição do especialista, mas durante a implantação encontra estados novos devido às suas próprias ações imperfeitas. O DAgger executa iterativamente a política atual, coleta novos estados, pede ao especialista para rotulá-los com ações corretas e retraina. Isso cobre progressivamente os estados que o aprendiz realmente visita. As variantes incluem SafeDAgger (com restrições de segurança) e HG-DAgger (com intervenções controladas por humanos).

Por que isso é importante para equipes de robôs

Compreender o DAgger é essencial para equipes que constroem sistemas robóticos do mundo real. Seja coletando dados de demonstração, treinando políticas em simulação ou implantando em produção, esse conceito afeta diretamente seu fluxo de trabalho e design do sistema.