تعريف

يعالج DAgger (تجميع مجموعة البيانات) مشكلة تحول التوزيع في استنساخ السلوك. في BC القياسي، يرى المتعلم الحالات فقط من توزيع الخبراء، ولكن أثناء النشر يواجه حالات جديدة بسبب أفعاله غير الكاملة. يدير DAgger السياسة الحالية بشكل متكرر، ويجمع الحالات الجديدة، ويطلب من الخبير تصنيفها بالإجراءات الصحيحة، وإعادة التدريب. يغطي هذا تدريجيًا الحالات التي يزورها المتعلم بالفعل. تشمل المتغيرات SafeDAgger (مع قيود السلامة) وHG-DAgger (مع التدخلات البشرية).

لماذا يهم فرق الروبوت

يعد فهم الخنجر أمرًا ضروريًا للفرق التي تقوم ببناء أنظمة الروبوت في العالم الحقيقي. سواء كنت تقوم بجمع بيانات العرض التوضيحي، أو سياسات التدريب في المحاكاة، أو النشر في الإنتاج، فإن هذا المفهوم يؤثر بشكل مباشر على سير العمل وتصميم النظام لديك.