← अनुसंधान

प्रथम श्रेणी के सीखने के संकेत के रूप में ह्यूमन-इन-द-लूप

ऑपरेटर सुधार, पुनर्प्राप्ति और हस्तक्षेप को यह आकार क्यों देना चाहिए कि आधुनिक रोबोट डेटा पाइपलाइन कैसे डिज़ाइन की जाती हैं।

जहां मानव इनपुट पर्यवेक्षण बन जाता है

दिखाना हस्तक्षेप करना वापस पाना रेलगाड़ी

कई रोबोट शिक्षण प्रणालियाँ अभी भी लोगों को अस्थायी मचान के रूप में मानती हैं: शुरुआत में प्रदर्शनों को इकट्ठा करने के लिए उपयोगी होती हैं, लेकिन जब नीति प्रशिक्षण में होती है तो ज्यादातर इसे नजरअंदाज कर दिया जाता है। व्यवहार में, यह ग़लत अमूर्तन है। मानव व्यवहार सिर्फ एक बूटस्ट्रैप उपकरण नहीं है. यह अक्सर कार्य के इरादे, विफलता की सीमाओं और पुनर्प्राप्ति रणनीति को समझने के लिए उपलब्ध सबसे समृद्ध संकेतों में से एक है।

सिग्नल कहाँ रहता है

मूल्य सफल प्रदर्शनों तक ही सीमित नहीं है। यह ठहराव, मध्य-प्रक्षेपवक्र सुधार, पकड़ समायोजन, पुनः प्रयास व्यवहार और उन क्षणों में प्रकट होता है जहां एक ऑपरेटर नोटिस करता है कि कोई कार्य विफल होने वाला है और रोबोट गलत कार्रवाई करने से पहले रणनीति बदलता है।

डेटा डिज़ाइन के लिए यह क्यों मायने रखता है?

यदि टीमें केवल अंतिम सफल प्रक्षेप पथ को बचाती हैं, तो वे बड़ी मात्रा में संरचना को फेंक देती हैं जो बताती है कि सफलता कैसे प्राप्त की गई। वे खोए हुए क्षण अक्सर वही होते हैं जो किसी नीति को और अधिक मजबूत बनाने में मदद करते हैं: बहाव से कैसे उबरें, संपर्क से पहले धीमा कैसे करें, आंशिक चूक के बाद फिर से कैसे संपर्क करें, और जब राज्य का अनुमान थोड़ा गलत हो तो कैसे प्रतिक्रिया दें।

क्या कैप्चर करना है

  • हस्तक्षेप - जब कोई इंसान कार्य को आगे बढ़ाता है या उसे वापस उसी दिशा में ले जाता है।
  • सुधार - मुद्रा, बल या अनुक्रम में छोटे परिवर्तन जो विशेषज्ञ निर्णय को प्रतिबिंबित करते हैं।
  • पुनर्प्रयास - असफल या आंशिक प्रयास जो कार्य की वास्तविक कठिनाई को प्रकट करते हैं।
  • कार्य मेटाडेटा - ऑपरेटर की पहचान, कठिनाई टैग और संदर्भ जो बताते हैं कि विकल्प क्यों बदले गए।

प्रैक्टिकल टेकअवे

वास्तविक रोबोट सिस्टम बनाने वाली टीमों को मानव इनपुट को "सच्चे" स्वायत्त प्रक्षेपवक्र के आसपास शोर के रूप में समझना बंद कर देना चाहिए। यह अक्सर उस नीतिगत व्यवहार की सबसे स्पष्ट अभिव्यक्ति होती है जो वे वास्तव में चाहते हैं। अच्छे डेटासेट उस सिग्नल को सरलीकृत सफलता-केवल रीप्ले में संक्षिप्त करने के बजाय संरक्षित करते हैं।

सर्वश्रेष्ठ प्रणालियां - प्रदर्शन के साथ-साथ मानवीय सुधारों और पुनर्प्राप्तियों को भी लॉग करें। वे अक्सर नाममात्र पथ की तुलना में अधिक जानकारीपूर्ण होते हैं।

प्रदर्शन कैसे एकत्र करें डेटा संग्रहण मार्गदर्शिका ← अनुसंधान पर वापस

बेहतर मानव-निर्देशित डेटा लूप डिज़ाइन करें

यदि आप ऑपरेटर वर्कफ़्लो, टेलीऑपरेशन लूप या हस्तक्षेप-जागरूक डेटासेट बना रहे हैं, तो हम पाइपलाइन की संरचना में मदद कर सकते हैं।