意味
DAgger (データセット集約) は、動作クローン作成における分散シフトの問題に対処します。 標準的な BC では、学習者はエキスパート分布からの状態のみを確認しますが、展開中に、学習者自身の不完全なアクションにより新しい状態に遭遇します。 DAgger は、現在のポリシーを繰り返し実行し、新しい状態を収集し、専門家に正しいアクションでラベルを付けるよう依頼し、再トレーニングします。 これにより、学習者が実際に訪れる州が段階的にカバーされます。 バリアントには、SafeDAgger (安全制約あり) および HG-DAgger (ヒューマンゲート介入あり) が含まれます。
ロボットチームにとってそれが重要な理由
現実世界のロボット システムを構築するチームにとって、ダガーを理解することは不可欠です。 デモンストレーション データを収集する場合でも、シミュレーションでポリシーをトレーニングする場合でも、運用環境に展開する場合でも、この概念はワークフローとシステム設計に直接影響します。