रोबोट डेटा एनोटेशन: प्रशिक्षण के लिए रोबोट प्रदर्शनों को कैसे लेबल करें
एनोटेशन रोबोट सीखने का सबसे कम आकर्षक हिस्सा है और सबसे परिणामी है। 500 अच्छी तरह से एनोटेटेड प्रदर्शनों का एक डेटासेट 2,000 खराब लेबल वाले प्रदर्शनों की तुलना में बेहतर नीति को प्रशिक्षित करेगा। यहां बताया गया है कि रोबोट डेटा के लिए एनोटेशन का क्या मतलब है और इसे सही तरीके से कैसे किया जाए।
रोबोट डेटा के लिए एनोटेशन का क्या अर्थ है?
छवि वर्गीकरण के विपरीत, जहां एनोटेशन का अर्थ बॉक्स बनाना या लेबल पर क्लिक करना है, रोबोट प्रदर्शन एनोटेशन अधिक समृद्ध और अधिक संरचित है। एक एकल रोबोट एपिसोड - आम तौर पर 20-200 सेकंड का हेरफेर - को कई स्तरों पर लेबल करने की आवश्यकता होती है: एपिसोड सफल था या असफल, कौन सी भाषा कार्य का वर्णन करती है, शब्दार्थ रूप से अलग-अलग चरण कहां से शुरू और समाप्त होते हैं, और क्या ऐसे कोई फ्रेम हैं जिन्हें हार्डवेयर त्रुटियों या ऑपरेटर गलतियों के कारण प्रशिक्षण से बाहर रखा जाना चाहिए।
एनोटेशन आम तौर पर मानव समीक्षकों द्वारा संयुक्त राज्यों और ग्रिपर एपर्चर के भूखंडों के साथ रिकॉर्ड किए गए एपिसोड के वीडियो रीप्ले को देखकर किया जाता है। अच्छे एनोटेशन उपकरण एक साथ कई कैमरों से सिंक्रनाइज़ वीडियो प्रदर्शित करते हैं, जिससे उन परिप्रेक्ष्यों से सफलता का आकलन करना आसान हो जाता है जिन्हें रोबोट के अपने कैमरे स्पष्ट रूप से कैप्चर नहीं कर सकते हैं।
सफलता के झंडे: सबसे महत्वपूर्ण व्याख्या
रोबोट प्रशिक्षण डेटासेट में प्रत्येक एपिसोड को बाइनरी सफलता ध्वज के साथ लेबल किया जाना चाहिए: क्या रोबोट ने कार्य सफलतापूर्वक पूरा किया। यह सरल लगता है, लेकिन एनोटेशन शुरू होने से पहले सफलता मानदंड को सटीक रूप से परिभाषित किया जाना चाहिए। "कप को प्लेट पर रखें" के लिए एक विशिष्टता की आवश्यकता होती है: क्या कप को सीधा होना चाहिए, क्या हैंडल का उन्मुखीकरण मायने रखता है, कितनी स्थितिगत त्रुटि स्वीकार्य है? एक ही डेटासेट पर अलग-अलग अंतर्निहित मानकों को लागू करने वाले एनोटेटर शोर वाले लेबल बनाते हैं जो प्रशिक्षण प्रदर्शन को ख़राब करते हैं।
एनोटेशन शुरू होने से पहले सफलता और विफलता के मामलों की उदाहरण छवियों के साथ एक पृष्ठ का सफलता विनिर्देश दस्तावेज़ लिखें। एनोटेटर्स को कैलिब्रेट करने के लिए इस दस्तावेज़ का उपयोग करें। एपिसोड के साझा उपसमूह पर अंतर-एनोटेटर समझौते को मापें - यदि समझौता 90% से कम है, तो आपके सफलता मानदंड को स्पष्टीकरण की आवश्यकता है। एसवीआरसी की एनोटेशन पाइपलाइन को किसी भी डेटासेट को प्रशिक्षण के लिए तैयार चिह्नित करने से पहले स्पष्ट सफलता मानदंड दस्तावेजों और अंतर-एनोटेटर समझौते की जांच की आवश्यकता होती है।
भाषा लेबल
भाषा एनोटेशन प्राकृतिक भाषा विवरण को एपिसोड या एपिसोड खंडों से जोड़ते हैं। ये भाषा-वातानुकूलित नीतियों के प्रशिक्षण के लिए आवश्यक हैं - ऐसी नीतियां जो कार्य को हार्डकोड करने के बजाय "लाल ब्लॉक उठाओ" जैसे निर्देशों का पालन करती हैं। भाषा एनोटेशन दृष्टि-भाषा-क्रिया (वीएलए) मॉडल के साथ संगतता भी सक्षम करते हैं और कार्य विवरण द्वारा डेटासेट को खोजने और फ़िल्टर करने की अनुमति देते हैं।
विशिष्टता के दो स्तरों पर भाषा एनोटेशन लिखें: एक संक्षिप्त कार्य नाम ("कप प्लेसमेंट") और एक प्राकृतिक भाषा निर्देश ("सफेद कप उठाएं और इसे नीली प्लेट पर रखें")। निर्देश में यह वर्णन होना चाहिए कि एक मानव पर्यवेक्षक क्या होता हुआ देखता है, न कि रोबोट की आंतरिक स्थिति का। यदि आपके कार्य में कार्य भिन्नताएं शामिल हैं - विभिन्न वस्तुएं, विभिन्न लक्ष्य स्थान - प्रत्येक भिन्नता में एक संबंधित निर्देश होना चाहिए जो इसे दूसरों से अलग करता है।
कार्य विभाजन
कई अनुक्रमिक उप-कार्यों वाले लंबे-क्षितिज वाले कार्यों के लिए, विभाजन लेबल चरणों के बीच की सीमाओं को चिह्नित करते हैं। टेबल-सेटिंग कार्य को इस प्रकार विभाजित किया जा सकता है: कप तक पहुंचें, कप को पकड़ें, कप को ट्रांसपोर्ट करें, कप रखें, कप को छोड़ें। विभाजन पदानुक्रमित नीति प्रशिक्षण, उप-कार्य-स्तरीय सफलता मेट्रिक्स और चयनात्मक डेटा वृद्धि को सक्षम बनाता है। यह सर्जिकल डिबगिंग को भी सक्षम बनाता है: यदि कोई नीति परिवहन के दौरान विफल हो जाती है लेकिन समझने के दौरान सफल होती है, तो विभाजन लेबल आपको उप-कार्य सफलता दर को मापने और डेटा संग्रह प्रयास को लक्षित करने देता है जहां इसकी सबसे अधिक आवश्यकता होती है।
सेगमेंटेशन एनोटेशन सफलता फ़्लैगिंग की तुलना में अधिक महंगा है और हमेशा आवश्यक नहीं होता है। तीन या अधिक शब्दार्थ रूप से भिन्न चरणों वाले कार्यों के लिए विभाजन को प्राथमिकता दें, या जब आप एक पदानुक्रमित नीति वास्तुकला का उपयोग करने की योजना बनाते हैं।
एनोटेशन उपकरण और गुणवत्ता मानक
रोबोट डेटा के लिए सामान्य एनोटेशन टूल में लेबल स्टूडियो (ओपन सोर्स, वीडियो और टाइम-सीरीज़ डेटा का समर्थन करता है), सीवीएटी (कंप्यूटर विज़न एनोटेशन टूल, बाउंडिंग बॉक्स ओवरले के लिए अच्छा) और ग्रेडियो या स्ट्रीमलिट के साथ निर्मित कस्टम एपिसोड ब्राउज़र शामिल हैं। एसवीआरसी के डेटा प्लेटफ़ॉर्म में वेब ऐप के माध्यम से सुलभ एक अंतर्निहित एपिसोड एनोटेशन इंटरफ़ेस शामिल है, जो सफलता के झंडे, भाषा लेबल और फ्रेम-स्तरीय बहिष्करण अंकन का समर्थन करता है।
गुणवत्ता मानक मात्रा से अधिक मायने रखते हैं। एसवीआरसी सभी डेटासेटों पर तीन-चरण गुणवत्ता गेट लागू करता है: रिकॉर्डिंग के तुरंत बाद ऑपरेटर स्व-एनोटेशन, एक प्रशिक्षित एनोटेटर द्वारा माध्यमिक समीक्षा, और संयुक्त राज्य आंकड़ों के खिलाफ एनोटेशन की तुलना करने वाली स्वचालित स्थिरता जांच (उदाहरण के लिए, सफलता के रूप में चिह्नित एपिसोड जहां ग्रिपर कभी बंद नहीं होता है, उन्हें पुन: समीक्षा के लिए चिह्नित किया जाता है)।
एसवीआरसी की एनोटेशन पाइपलाइन
जब आप SVRC का उपयोग करते हैं डेटा संग्रह सेवाएँ, एनोटेशन डिलिवरेबल का हिस्सा है। हमारे ऑपरेटर रिकॉर्डिंग सत्र के दौरान प्रत्येक एपिसोड को सफलता के झंडे और भाषा लेबल के साथ एनोटेट करते हैं, और हमारी एनोटेशन टीम डेटासेट निर्यात से पहले द्वितीयक समीक्षा करती है। आपको उच्च-विश्वास वाले एनोटेशन, एनोटेटर अनुबंध स्कोर और पूर्ण गुणवत्ता रिपोर्ट वाला एक डेटासेट प्राप्त होता है। अपने स्वयं के एकत्रित डेटा लाने वाली टीमों के लिए, एसवीआरसी एनोटेशन-केवल सेवाएं प्रदान करता है और किसी भी समर्थित हार्डवेयर प्लेटफ़ॉर्म पर एकत्र किए गए मौजूदा डेटासेट को संसाधित कर सकता है। हमसे संपर्क करें आपके डेटासेट एनोटेशन आवश्यकताओं पर चर्चा करने के लिए।