Определение
DAgger (агрегирование наборов данных) решает проблему смещения распределения при клонировании поведения. В стандартном BC обучаемый видит только состояния из экспертного распределения, но во время развертывания он сталкивается с новыми состояниями из-за своих собственных несовершенных действий. DAgger итеративно запускает текущую политику, собирает новые состояния, просит эксперта пометить их правильными действиями и переобучает. Это постепенно охватывает состояния, которые учащийся фактически посещает. Варианты включают SafeDAgger (с ограничениями безопасности) и HG-DAgger (с вмешательством человека).
Почему это важно для команд роботов
Понимание Dagger важно для команд, создающих реальные роботизированные системы. Независимо от того, собираете ли вы демонстрационные данные, обучаете политикам моделирования или развертываете в рабочей среде, эта концепция напрямую влияет на ваш рабочий процесс и проектирование системы.