रोबोट सीखना

रोबोट नीति सामान्यीकरण: आपका रोबोट नई वस्तुओं पर विफल क्यों होता है

आपकी नीति प्रशिक्षण वस्तुओं पर 90% सफलता प्राप्त करती है। आप एक नया कप, एक अलग बॉक्स, एक अपरिचित उपकरण पेश करते हैं - और प्रदर्शन 30% तक गिर जाता है। यह सामान्यीकरण समस्या है, और यह वास्तविक दुनिया में रोबोट सीखने को तैनात करने की केंद्रीय चुनौती है।

रोबोट नीतियों के लिए सामान्यीकरण का क्या अर्थ है?

एक रोबोट नीति तब सामान्यीकृत होती है जब वह प्रशिक्षण के दौरान न देखी गई वस्तुओं, स्थितियों और स्थितियों पर सफलतापूर्वक कार्य करता है। यह केवल प्रदर्शित व्यवहार को याद रखने से अलग है - याद रखने से भंगुर नीतियां उत्पन्न होती हैं जो तैनाती की स्थिति प्रशिक्षण स्थितियों से भिन्न होते ही विफल हो जाती हैं। सामान्यीकरण के लिए नीति को विशिष्ट दृश्य इनपुट से बंधे एक विशिष्ट गति अनुक्रम के बजाय एक अंतर्निहित कार्य अवधारणा (कंटेनर उठाओ, तरल डालना) सीखने की आवश्यकता होती है।

सामान्यीकरण के कई अक्ष हैं जो व्यवहार में मायने रखते हैं: वस्तु उपस्थिति सामान्यीकरण (समान आकार, अलग रंग या बनावट), वस्तु ज्यामिति सामान्यीकरण (समान श्रेणी, अलग आकार या सटीक आकार), स्थिति सामान्यीकरण (समान वस्तु, अलग प्रारंभिक स्थान), और रचनात्मक सामान्यीकरण (परिचित कार्य तत्वों के नए संयोजन)। प्रत्येक अक्ष को अलग-अलग डेटा रणनीतियों की आवश्यकता होती है और नीति वास्तुकला के आधार पर यह कमोबेश कठिन होता है।

यह विफल क्यों होता है: मूल कारण

खराब सामान्यीकरण का सबसे आम कारण प्रशिक्षण डेटासेट में अपर्याप्त विविधता है। यदि सभी प्रदर्शनों में एक ही शुरुआती स्थिति में एक ही लाल कप का उपयोग किया जाता है, तो नीति उस कप और उस स्थिति की विशिष्ट विशेषताओं को सीखती है - "कप" की सामान्य अवधारणा नहीं। नीति "इस विशिष्ट लाल कप को इस विशिष्ट स्थान पर उठाएं" और "किसी भी कप को कहीं भी उठाएं" के बीच अंतर नहीं कर सकती है। यह एल्गोरिथम में कोई दोष नहीं है; यह एक डेटा समस्या है.

एक द्वितीयक कारण दृश्य विशेषताओं में वितरण परिवर्तन है। यदि प्रशिक्षण प्रदर्शनों को नियंत्रित स्टूडियो प्रकाश व्यवस्था के तहत रिकॉर्ड किया गया था और परिनियोजन परिवर्तनीय परिवेश प्रकाश में होता है, तो सीखी गई नीति की दृश्य विशेषताएं परिनियोजन अवलोकनों पर सही ढंग से सक्रिय नहीं हो सकती हैं। इसी तरह, यदि किसी नई वस्तु की सतह की बनावट या परावर्तन प्रशिक्षण वाली वस्तुओं से भिन्न है, तो पॉलिसी बैकबोन द्वारा उपयोग की जाने वाली निम्न-स्तरीय दृश्य सुविधाएँ अपेक्षाओं से मेल नहीं खा सकती हैं। यही कारण है कि एसवीआरसी के डेटा संग्रह मानक को कई प्रकाश स्थितियों और विविध ऑब्जेक्ट उदाहरणों के साथ डेटा एकत्र करने की आवश्यकता होती है।

डेटा विविधता रणनीतियाँ

सामान्यीकरण में सुधार करने का सबसे विश्वसनीय तरीका जानबूझकर डेटासेट विविधीकरण है। वस्तु विविधता के लिए: लक्ष्य वस्तु श्रेणी के अलग-अलग आकार, रंग, सामग्री और ब्रांड के कम से कम 10-20 विशिष्ट उदाहरणों के साथ प्रदर्शन एकत्र करें। स्थिति विविधता के लिए: 30-40 सेमी ग्रिड में प्रारंभिक स्थिति को अलग-अलग करें और विभिन्न अभिविन्यास शामिल करें। पृष्ठभूमि विविधता के लिए: कार्यस्थान की सतह बदलें, ध्यान भटकाने वाले तत्व जोड़ें और पूरे सत्र में प्रकाश व्यवस्था अलग-अलग करें।

डेटा संवर्द्धन वास्तविक विविधता का पूरक हो सकता है लेकिन उसका स्थान नहीं ले सकता। मानक दृश्य संवर्द्धन - रंग घबराहट, यादृच्छिक फसल, चमक/कंट्रास्ट भिन्नता - प्रकाश भिन्नता में मजबूती में सुधार करते हैं लेकिन विविध ऑब्जेक्ट उदाहरणों के लिए स्थानापन्न नहीं होते हैं। ऑब्जेक्ट विविधताएं बनाने के लिए छवि संपादन या जेनरेटिव मॉडल का उपयोग करके सिंथेटिक संवर्धित डेटा उत्पन्न करना वादा दिखाया गया है लेकिन अवास्तविक दृश्य कलाकृतियों को पेश करने से बचने के लिए सावधानीपूर्वक गुणवत्ता नियंत्रण की आवश्यकता है।

वीएलए बनाम कार्य-विशिष्ट नीतियां

विज़न-लैंग्वेज-एक्शन मॉडल (वीएलए) - ऐसी नीतियां जो भाषा निर्देशों और दृश्य अवलोकनों को इनपुट के रूप में लेती हैं और क्रियाएं उत्पन्न करती हैं - सामान्यीकरण के लिए एक अलग दृष्टिकोण प्रदान करती हैं। बड़े दृष्टि-भाषा पूर्व-प्रशिक्षण के समृद्ध अर्थपूर्ण निरूपण में रोबोट के व्यवहार को आधार बनाकर, वीएलए कभी-कभी भाषा विवरण से मेल खाने वाले दृश्य स्वरूप के आधार पर नए ऑब्जेक्ट इंस्टेंस को शून्य-शॉट संभाल सकते हैं ("मग उठाओ" किसी भी ऑब्जेक्ट को सामान्यीकृत करता है जिसे मॉडल मग के रूप में पहचानता है)। ओपनवीएलए, ऑक्टो और आरटी-2 जैसे मॉडलों ने कुछ हेरफेर कार्यों पर सार्थक शून्य-शॉट सामान्यीकरण का प्रदर्शन किया है।

हालाँकि, वीएलए जादुई सामान्यीकरण मशीनें नहीं हैं। वे सिमेंटिक सामान्यीकरण (एक ज्ञात श्रेणी के भीतर नए ऑब्जेक्ट उदाहरण) में उत्कृष्टता प्राप्त करते हैं, लेकिन फिर भी ज्यामितीय सामान्यीकरण (अलग-अलग समझ कॉन्फ़िगरेशन की आवश्यकता वाले नए ऑब्जेक्ट आकार) और उन कार्यों के साथ संघर्ष करते हैं जिनके लिए सटीक बल नियंत्रण या संपर्क-समृद्ध व्यवहार की आवश्यकता होती है। अधिकांश शोध टीमों के लिए, व्यावहारिक अनुशंसा यह है: शुरुआती बिंदु या रीढ़ की हड्डी के रूप में वीएलए का उपयोग करें, फिर आपके लिए आवश्यक सटीकता और विश्वसनीयता प्राप्त करने के लिए कार्य-विशिष्ट प्रदर्शनों को ठीक करें।

सामान्यीकरण के लिए मूल्यांकन के तरीके

सामान्यीकरण का मूल्यांकन स्पष्ट रूप से किया जाना चाहिए, वितरण प्रदर्शन से अनुमान नहीं लगाया जाना चाहिए। मानक मूल्यांकन प्रोटोकॉल उन वस्तुओं के एक आयोजित-आउट परीक्षण सेट का उपयोग करता है जो प्रशिक्षण में मौजूद नहीं हैं - आदर्श रूप से प्रति श्रेणी 5-10 ऑब्जेक्ट उदाहरण जिन्हें जानबूझकर डेटा संग्रह से बाहर रखा गया था। प्रशिक्षण के बाद आयोजित सेट पर मूल्यांकन करें और वितरण में और वितरण से बाहर दोनों सफलता दरों की अलग-अलग रिपोर्ट करें। एक नीति जो वितरण में 85% हासिल करती है लेकिन वितरण से बाहर केवल 40% हासिल करती है, उसका सामान्यीकरण सीमित है और अधिक विविध प्रशिक्षण डेटा की आवश्यकता है।

किसी भी डेटासेट को उत्पादन के लिए तैयार चिह्नित करने से पहले एसवीआरसी के गुणवत्ता मानकों को सामान्यीकरण मूल्यांकन की आवश्यकता होती है। हमारी एनोटेशन और मूल्यांकन पाइपलाइन में सभी हेरफेर डेटासेट के लिए एक हेल्ड-आउट ऑब्जेक्ट सेट शामिल है, और हमारी इंजीनियरिंग टीम प्रशिक्षित नीतियों पर मानकीकृत सामान्यीकरण मूल्यांकन चला सकती है। हमारे माध्यम से अधिक सामान्यीकृत डेटासेट बनाने में सहायता के लिए डेटा सेवाएँ, या मूल्यांकन समर्थन के लिए, एसवीआरसी टीम से संपर्क करें.