Définition
DAgger (Dataset Aggregation) résout le problème du changement de distribution dans le clonage de comportement. En BC standard, l'apprenant ne voit que les états de la distribution experte, mais lors du déploiement, il rencontre de nouveaux états en raison de ses propres actions imparfaites. DAgger exécute de manière itérative la politique actuelle, collecte de nouveaux états, demande à l'expert de les étiqueter avec les actions correctes et se recycle. Cela couvre progressivement les États que l’apprenant visite réellement. Les variantes incluent SafeDAgger (avec contraintes de sécurité) et HG-DAgger (avec interventions contrôlées par l'homme).
Pourquoi c'est important pour les équipes de robots
Comprendre le poignard est essentiel pour les équipes qui construisent des systèmes robotiques réels. Que vous collectiez des données de démonstration, formiez des politiques en simulation ou déployiez en production, ce concept affecte directement votre flux de travail et la conception de votre système.