Definición
DAgger (Agregación de Conjuntos de Datos) aborda el problema del cambio de distribución en la clonación de comportamiento. En el BC estándar, el aprendiz solo ve estados de la distribución del experto, pero durante el despliegue encuentra estados novedosos debido a sus propias acciones imperfectas. DAgger ejecuta iterativamente la política actual, recopila nuevos estados, pide al experto que los etiquete con acciones correctas y vuelve a entrenar. Esto cubre progresivamente los estados que el aprendiz realmente visita. Las variantes incluyen SafeDAgger (con restricciones de seguridad) y HG-DAgger (con intervenciones controladas por humanos).
Por qué es importante para los equipos de robots
Entender DAgger es esencial para los equipos que construyen sistemas robóticos en el mundo real. Ya sea que estés recopilando datos de demostración, entrenando políticas en simulación o desplegando en producción, este concepto afecta directamente tu flujo de trabajo y diseño del sistema.