정의
DAgger(Dataset Aggregation)는 행동 복제의 분포 변화 문제를 해결합니다. 표준 BC에서 학습자는 전문가 배포의 상태만 볼 수 있지만 배포 중에는 자체 불완전한 작업으로 인해 새로운 상태가 발생합니다. DAgger는 현재 정책을 반복적으로 실행하고, 새로운 상태를 수집하고, 전문가에게 올바른 작업 레이블을 지정하도록 요청하고, 재교육합니다. 이는 학습자가 실제로 방문하는 상태를 점진적으로 다룹니다. 변형에는 SafeDAgger(안전 제약 포함) 및 HG-DAgger(인간 제어 개입 포함)가 포함됩니다.
로봇 팀에 중요한 이유
단검을 이해하는 것은 실제 로봇 시스템을 구축하는 팀에게 필수적입니다. 데모 데이터를 수집하든, 시뮬레이션에서 정책을 교육하든, 프로덕션에 배포하든 이 개념은 작업 흐름과 시스템 설계에 직접적인 영향을 미칩니다.