परिभाषा

DAgger (डेटासेट एग्रीगेशन) व्यवहार क्लोनिंग में वितरण बदलाव की समस्या का समाधान करता है। मानक बीसी में, शिक्षार्थी केवल विशेषज्ञ वितरण से राज्यों को देखता है, लेकिन तैनाती के दौरान उसे अपने स्वयं के अपूर्ण कार्यों के कारण नए राज्यों का सामना करना पड़ता है। डैगर वर्तमान नीति को पुनरावृत्त रूप से चलाता है, नए राज्यों को एकत्रित करता है, विशेषज्ञ से उन्हें सही कार्यों के साथ लेबल करने के लिए कहता है, और पुनः प्रशिक्षित करता है। यह धीरे-धीरे उन राज्यों को कवर करता है जहां शिक्षार्थी वास्तव में जाते हैं। वेरिएंट में सेफडीएगर (सुरक्षा बाधाओं के साथ) और एचजी-डीएगर (मानव-गेटेड हस्तक्षेप के साथ) शामिल हैं।

रोबोट टीमों के लिए यह क्यों मायने रखता है?

वास्तविक दुनिया के रोबोट सिस्टम बनाने वाली टीमों के लिए डैगर को समझना आवश्यक है। चाहे आप प्रदर्शन डेटा एकत्र कर रहे हों, सिमुलेशन में प्रशिक्षण नीतियां, या उत्पादन में तैनाती कर रहे हों, यह अवधारणा सीधे आपके वर्कफ़्लो और सिस्टम डिज़ाइन को प्रभावित करती है।