प्रथम श्रेणी के सीखने के संकेत के रूप में ह्यूमन-इन-द-लूप
ऑपरेटर सुधार, पुनर्प्राप्ति और हस्तक्षेप को यह आकार क्यों देना चाहिए कि आधुनिक रोबोट डेटा पाइपलाइन कैसे डिज़ाइन की जाती हैं।
जहां मानव इनपुट पर्यवेक्षण बन जाता है
कई रोबोट शिक्षण प्रणालियाँ अभी भी लोगों को अस्थायी मचान के रूप में मानती हैं: शुरुआत में प्रदर्शनों को इकट्ठा करने के लिए उपयोगी होती हैं, लेकिन जब नीति प्रशिक्षण में होती है तो ज्यादातर इसे नजरअंदाज कर दिया जाता है। व्यवहार में, यह ग़लत अमूर्तन है। मानव व्यवहार सिर्फ एक बूटस्ट्रैप उपकरण नहीं है. यह अक्सर कार्य के इरादे, विफलता की सीमाओं और पुनर्प्राप्ति रणनीति को समझने के लिए उपलब्ध सबसे समृद्ध संकेतों में से एक है।
सिग्नल कहाँ रहता है
मूल्य सफल प्रदर्शनों तक ही सीमित नहीं है। यह ठहराव, मध्य-प्रक्षेपवक्र सुधार, पकड़ समायोजन, पुनः प्रयास व्यवहार और उन क्षणों में प्रकट होता है जहां एक ऑपरेटर नोटिस करता है कि कोई कार्य विफल होने वाला है और रोबोट गलत कार्रवाई करने से पहले रणनीति बदलता है।
डेटा डिज़ाइन के लिए यह क्यों मायने रखता है?
यदि टीमें केवल अंतिम सफल प्रक्षेप पथ को बचाती हैं, तो वे बड़ी मात्रा में संरचना को फेंक देती हैं जो बताती है कि सफलता कैसे प्राप्त की गई। वे खोए हुए क्षण अक्सर वही होते हैं जो किसी नीति को और अधिक मजबूत बनाने में मदद करते हैं: बहाव से कैसे उबरें, संपर्क से पहले धीमा कैसे करें, आंशिक चूक के बाद फिर से कैसे संपर्क करें, और जब राज्य का अनुमान थोड़ा गलत हो तो कैसे प्रतिक्रिया दें।
क्या कैप्चर करना है
- हस्तक्षेप - जब कोई इंसान कार्य को आगे बढ़ाता है या उसे वापस उसी दिशा में ले जाता है।
- सुधार - मुद्रा, बल या अनुक्रम में छोटे परिवर्तन जो विशेषज्ञ निर्णय को प्रतिबिंबित करते हैं।
- पुनर्प्रयास - असफल या आंशिक प्रयास जो कार्य की वास्तविक कठिनाई को प्रकट करते हैं।
- कार्य मेटाडेटा - ऑपरेटर की पहचान, कठिनाई टैग और संदर्भ जो बताते हैं कि विकल्प क्यों बदले गए।
प्रैक्टिकल टेकअवे
वास्तविक रोबोट सिस्टम बनाने वाली टीमों को मानव इनपुट को "सच्चे" स्वायत्त प्रक्षेपवक्र के आसपास शोर के रूप में समझना बंद कर देना चाहिए। यह अक्सर उस नीतिगत व्यवहार की सबसे स्पष्ट अभिव्यक्ति होती है जो वे वास्तव में चाहते हैं। अच्छे डेटासेट उस सिग्नल को सरलीकृत सफलता-केवल रीप्ले में संक्षिप्त करने के बजाय संरक्षित करते हैं।
सर्वश्रेष्ठ प्रणालियां - प्रदर्शन के साथ-साथ मानवीय सुधारों और पुनर्प्राप्तियों को भी लॉग करें। वे अक्सर नाममात्र पथ की तुलना में अधिक जानकारीपूर्ण होते हैं।