रोबोटिक्स शब्दावली
नकल सीखने, वीएलए मॉडल, टेलीऑपरेशन, किनेमेटिक्स और सन्निहित एआई को कवर करने वाले 60+ शब्द - शोधकर्ताओं, इंजीनियरों और उद्यम टीमों के लिए लिखे गए हैं।
A
ACT (ट्रांसफॉर्मर्स के साथ एक्शन चंकिंग)
ACT टोनी झाओ एट अल द्वारा प्रस्तुत एक अनुकरण शिक्षण एल्गोरिदम है। (2023) जो प्रत्येक समय-चरण पर एक कार्रवाई के बजाय भविष्य की कार्रवाइयों की एक निश्चित-लंबाई वाले हिस्से की भविष्यवाणी करने के लिए एक ट्रांसफार्मर-आधारित नीति को प्रशिक्षित करता है। एक ही बार में क्रिया अनुक्रमों की भविष्यवाणी करके, ACT चरण-दर-चरण व्यवहार क्लोनिंग की विशिष्ट यौगिक त्रुटि को कम करता है और अस्थायी रूप से सुसंगत गति उत्पन्न करता है। आर्किटेक्चर एक सीवीएई-शैली एनकोडर के माध्यम से आरजीबी अवलोकनों और प्रोप्रियोसेप्टिव स्थिति को एनकोड करता है और एक ट्रांसफार्मर का उपयोग करके एक्शन चंक्स को डीकोड करता है। पर ACT का प्रदर्शन किया गया ALOHA द्वि-मैन्युअल प्लेटफ़ॉर्म, बैग खोलने और अंडे स्थानांतरित करने जैसे कार्यों पर मजबूत प्रदर्शन प्राप्त करना। यह भी देखें: एक्शन चुंकिंग (गहरा गोता).
एक्शन स्पेस
एक्शन स्पेस आउटपुट का पूरा सेट है जो एक रोबोट नीति प्रत्येक टाइमस्टेप पर उत्पन्न कर सकती है। रोबोट भुजा के लिए इसमें आम तौर पर संयुक्त स्थिति, संयुक्त वेग, या अंत-प्रभावक पोज़ (कार्टेशियन स्थिति + क्वाटरनियन) शामिल होते हैं; मोबाइल रोबोट के लिए इसमें व्हील वेग या स्टीयरिंग कमांड शामिल हैं। क्रिया स्थानों को या तो असतत (क्रियाओं का एक सीमित मेनू) या निरंतर (वास्तविक-मूल्यवान वैक्टर) के रूप में वर्णित किया गया है। एक्शन स्पेस की आयामीता और प्रतिनिधित्व दृढ़ता से प्रभावित करता है कि स्थिर नीति को प्रशिक्षित करना कितना आसान है: अंत-प्रभावक डेल्टा-पोज़ स्थान अक्सर अनुकरण सीखने के लिए आसान होते हैं, जबकि संयुक्त-टोक़ स्थान बेहतर बल नियंत्रण देते हैं लेकिन अधिक सावधानीपूर्वक सामान्यीकरण की आवश्यकता होती है।
ALOHA (द्विमापीय टेलीऑपरेशन के लिए एक कम लागत वाला ओपन-सोर्स हार्डवेयर सिस्टम)
ALOHA स्टैनफोर्ड में विकसित एक ओपन-सोर्स द्वि-मैनुअल टेलीऑपरेशन सिस्टम है, जिसमें दो ViperX 300 रोबोट हथियार और दो WidowX 250 लीडर हथियार एक एकीकृत कलाई कैमरे के साथ एक साझा फ्रेम पर लगाए गए हैं। इसे कम लागत पर उच्च गुणवत्ता वाले प्रदर्शन डेटा एकत्र करने के लिए डिज़ाइन किया गया था - मूल निर्माण $20,000 से कम है - और इसे रेखांकित करता है ACT नीति प्रयोग. मोबाइल ALOHA एक व्हील्ड बेस के साथ प्लेटफॉर्म का विस्तार करता है, जिससे खाना पकाने और सफाई जैसे पूरे शरीर के लोको-हेरफेर कार्यों को सक्षम किया जा सकता है। ALOHA डेटासेट सार्वजनिक रूप से उपलब्ध हैं और द्वि-मैन्युअल हेरफेर अनुसंधान के लिए एक वास्तविक बेंचमार्क बन गए हैं। यहां और जानें एसवीआरसी डेटा सेवाएँ.
AMR (स्वायत्त मोबाइल रोबोट)
एक स्वायत्त मोबाइल रोबोट SLAM, पथ-योजना और बाधा-बचाव एल्गोरिदम के साथ संयुक्त ऑनबोर्ड सेंसर (LiDAR, कैमरे, IMU) का उपयोग करके, निश्चित ट्रैक या मानव मार्गदर्शन के बिना अपने वातावरण में नेविगेट करता है। एजीवी (स्वचालित निर्देशित वाहन) के विपरीत, जो चुंबकीय पट्टियों का पालन करते हैं, एएमआर वास्तविक समय में एक मानचित्र बनाते हैं और अपडेट करते हैं और लोगों और वस्तुओं के चारों ओर गतिशील रूप से पुन: रूट करते हैं। बोस्टन डायनेमिक्स, लोकस रोबोटिक्स और 6 रिवर सिस्टम्स जैसी कंपनियों के आधुनिक वेयरहाउस एएमआर ने लॉजिस्टिक्स में व्यापक रूप से अपनाने को प्रेरित किया है। एएमआर को बनाने के लिए अक्सर मैनिपुलेटर हथियारों के साथ जोड़ा जाता है मोबाइल मैनिपुलेटर्स बड़े पैमाने पर चुनने और रखने में सक्षम।
B
व्यवहारिक क्लोनिंग (बीसी)
व्यवहारिक क्लोनिंग इसका सबसे सरल रूप है नकल सीखना: एक पर्यवेक्षित प्रतिगमन समस्या जहां नीति को प्रत्येक अवलोकित स्थिति में नीति के आउटपुट और विशेषज्ञ की कार्रवाई के बीच पूर्वानुमान त्रुटि को कम करके विशेषज्ञ प्रदर्शनों की नकल करने के लिए प्रशिक्षित किया जाता है। बीसी को लागू करना आसान है और डेटा के साथ इसका माप अच्छा है, लेकिन इसमें दिक्कतें आती हैं वितरणात्मक बदलाव - क्योंकि इसे कभी भी सुधारात्मक प्रतिक्रिया नहीं मिलती है, छोटी त्रुटियों के कारण रोबोट उन राज्यों का दौरा करता है जो प्रशिक्षण डेटा में मौजूद नहीं हैं, जो कार्य विफलता में बदल सकता है। डीएगर (डेटासेट एग्रीगेशन) और गेल जैसी तकनीकों को विशेष रूप से बीसी की कंपाउंडिंग-त्रुटि समस्या के समाधान के लिए विकसित किया गया था।
द्वि-मैन्युअल हेरफेर
द्वि-मैन्युअल हेरफेर उन कार्यों को संदर्भित करता है जिनमें समन्वय में काम करने वाले दो रोबोट हथियारों की आवश्यकता होती है, जैसे कि मनुष्य एक साथ दोनों हाथों का उपयोग कैसे करते हैं। उदाहरणों में कपड़े धोना, गांठें बांधना, जार खोलना और भागों को जोड़ना शामिल है जिन्हें एक हाथ से स्थिर किया जाना चाहिए जबकि दूसरा अच्छा संचालन करता है। एकल-हाथ वाले कार्यों की तुलना में द्वि-हाथ वाले कार्य काफी कठिन होते हैं क्योंकि नीति को हथियारों के बीच भौतिक बाधाओं का सम्मान करते हुए दो उच्च-आयामी कार्रवाई धाराओं का समन्वय करना चाहिए। ALOHA मंच का निर्माण द्वि-मैनुअल प्रदर्शनों को एकत्रित करने के उद्देश्य से किया गया था, और ACT द्वि-मैन्युअल नियंत्रण के लिए अग्रणी नीतियों में से एक है।
BOM (सामग्री का बिल)
रोबोटिक्स हार्डवेयर में, बीओएम एक सिस्टम बनाने के लिए आवश्यक प्रत्येक घटक, सबअसेंबली, भाग संख्या, मात्रा और इकाई लागत को सूचीबद्ध करता है। सटीक बीओएम उत्पादन स्केलअप, खरीद, आपूर्ति-श्रृंखला जोखिम प्रबंधन और लागत मॉडलिंग के लिए महत्वपूर्ण हैं। ओपन-सोर्स रोबोट प्लेटफ़ॉर्म जैसे ओपनआर्म या एएलओएचए के लिए, एक प्रकाशित बीओएम बाहरी टीमों को मालिकाना निर्भरता के बिना हार्डवेयर को पुन: पेश करने की अनुमति देता है। रोबोट परिनियोजन का मूल्यांकन करने वाली एंटरप्राइज़ टीमें अक्सर पट्टे या रोबोट-ए-सर्विस विकल्पों के विरुद्ध स्वामित्व की कुल लागत को बेंचमार्क करने के लिए बीओएम का अनुरोध करती हैं - तुलना करें एसवीआरसी पट्टे के विकल्प.
C
कार्टेशियन स्पेस (कार्य स्थान)
कार्टेशियन स्पेस (जिसे टास्क स्पेस या ऑपरेशनल स्पेस भी कहा जाता है) एक दुनिया या बेस फ्रेम के सापेक्ष उसके अंतिम-प्रभावक की स्थिति और अभिविन्यास के संदर्भ में एक रोबोट के कॉन्फ़िगरेशन का वर्णन करता है, जिसे आमतौर पर (x, y, z, रोल, पिच, यॉ) या (x, y, z, quatermion) के रूप में व्यक्त किया जाता है। कार्टेशियन स्पेस में रोबोट को नियंत्रित करना अक्सर नकल सीखने के लिए अधिक सहज होता है क्योंकि मानव प्रदर्शन स्वाभाविक रूप से अंत-प्रभावक प्रक्षेपवक्र को मैप करता है। से परिवर्तन संयुक्त स्थान कार्टेशियन स्पेस को कहा जाता है आगे की गतिकी; उलटा है व्युत्क्रम गतिकी.
सह-प्रशिक्षण
रोबोटिक्स में सह-प्रशिक्षण से तात्पर्य कई रोबोट अवतारों, कार्यों या वातावरणों से डेटा पर एक ही नीति को एक साथ प्रशिक्षित करना है। परिकल्पना यह है कि विविध डेटा स्रोत नीति को मजबूत दृश्य और व्यवहारिक प्रतिनिधित्व सिखाते हैं जो नई सेटिंग्स में बेहतर स्थानांतरित होते हैं। एक्स-एम्बोडिमेंट खोलें डेटासेट को विशेष रूप से 22 से अधिक रोबोट प्रकारों में सह-प्रशिक्षण सक्षम करने के लिए इकट्ठा किया गया था। RT-2 और OpenVLA जैसे बड़े फाउंडेशन मॉडल बूटस्ट्रैप सामान्यीकरण के लिए रोबोट प्रदर्शन डेटा के साथ-साथ इंटरनेट-स्केल विज़न-भाषा डेटा के साथ सह-प्रशिक्षण पर भरोसा करते हैं।
संपर्क-समृद्ध हेरफेर
संपर्क-समृद्ध हेरफेर कार्य वे होते हैं जहां कार्य की सफलता के लिए रोबोट और पर्यावरण के बीच उद्देश्यपूर्ण, निरंतर संपर्क आवश्यक होता है - जैसे कि खूंटी-इन-होल प्रविष्टि, पेंच बोल्ट, कपड़े को मोड़ना, या आटा गूंधना। ये कार्य चुनौतीपूर्ण हैं क्योंकि छोटी स्थितीय त्रुटियां बड़े बल स्पाइक्स उत्पन्न करती हैं, और कठोर स्थिति नियंत्रक भागों को नुकसान पहुंचा सकते हैं या रोबोट को अस्थिर कर सकते हैं। सफल दृष्टिकोण अनुपालन नियंत्रण (प्रतिबाधा या प्रवेश नियंत्रण) को जोड़ते हैं, बल-टोक़ संवेदन, और सीखी गई नीतियां जो संपर्क का अनुमान लगाती हैं और उसका फायदा उठाती हैं।
सतत नियंत्रण
निरंतर नियंत्रण उन रोबोट नीतियों को संदर्भित करता है जो क्रियाओं के अलग-अलग सेट से चयन करने के बजाय वास्तविक-मूल्य वाले एक्शन वैक्टर (जैसे, संयुक्त टॉर्क, वेग, या कार्टेशियन डेल्टा) का उत्पादन करते हैं। अधिकांश भौतिक रोबोट हेरफेर कार्यों के लिए निरंतर नियंत्रण की आवश्यकता होती है क्योंकि सुचारू, सटीक गति को एक सीमित क्रिया मेनू द्वारा पर्याप्त रूप से प्रस्तुत नहीं किया जा सकता है। निरंतर नियंत्रण के लिए मानक डीप आरएल एल्गोरिदम में डीडीपीजी, टीडी3 और एसएसी शामिल हैं; अनुकरण सीखने, व्यवहारिक क्लोनिंग और के लिए प्रसार नीति आमतौर पर निरंतर क्रिया वाले स्थानों में उपयोग किया जाता है।
D
डेटा संवर्धन (रोबोटिक्स के लिए)
रोबोट लर्निंग में डेटा संवर्द्धन अतिरिक्त प्रदर्शन एकत्र किए बिना नीति की मजबूती में सुधार के लिए प्रशिक्षण टिप्पणियों में यादृच्छिक परिवर्तन लागू करता है। सामान्य छवि संवर्द्धन में यादृच्छिक क्रॉपिंग, रंग घबराहट, गाऊसी धुंधलापन और कटआउट शामिल हैं। प्रशिक्षण वातावरण में विशिष्ट दृश्य सुविधाओं पर ओवरफिटिंग को रोकने के लिए अधिक परिष्कृत संवर्द्धन विचलित करने वाली पृष्ठभूमि को ओवरले करते हैं, प्रकाश की स्थिति को बदलते हैं, या सेंसर शोर को इंजेक्ट करते हैं। कुछ दृष्टिकोण क्रियाओं को भी बढ़ाते हैं - उदाहरण के लिए, नीति को गड़बड़ी से उबरने के लिए सिखाने के लिए संयुक्त प्रक्षेप पथों में शोर जोड़ना। जब प्रशिक्षण डेटा महंगा हो तो संवर्द्धन विशेष रूप से महत्वपूर्ण होता है (प्रत्येक प्रदर्शन के लिए मानव ऑपरेटर के समय की आवश्यकता होती है)।
स्वतंत्रता की कोटियां (डीओएफ)
स्वतंत्रता की डिग्री एक यांत्रिक प्रणाली के विन्यास को निर्दिष्ट करने के लिए आवश्यक स्वतंत्र मापदंडों की संख्या का वर्णन करती है। छह उल्टे जोड़ों वाले एक रोबोट हाथ में 6 डीओएफ होते हैं - जो अपने अंतिम-प्रभावक को उसके पहुंच योग्य कार्यक्षेत्र (एकवचन को छोड़कर) के भीतर मनमाने ढंग से स्थित करने और उन्मुख करने के लिए पर्याप्त है। 7-डीओएफ भुजा एक अनावश्यक जोड़ जोड़ती है जो बाधा से बचने या आराम की स्थिति के लिए शून्य-स्थान अनुकूलन की अनुमति देती है। मानव भुजाओं में कंधे-कोहनी-कलाई की श्रृंखला में लगभग 7 डीओएफ होते हैं, जिससे 7-डीओएफ रोबोट मानवरूपी हेरफेर के लिए प्राकृतिक विकल्प बन जाते हैं। मोबाइल बेस 2-3 डीओएफ जोड़ते हैं; पूर्ण ह्यूमनॉइड्स 30 डीओएफ से अधिक हैं।
प्रदर्शन
एक प्रदर्शन (नकल सीखने के संदर्भ में प्रक्षेपवक्र या प्रकरण भी कहा जाता है) एक मानव या विशेषज्ञ नियंत्रक द्वारा प्रदान किए गए अवलोकनों और कार्यों का एक रिकॉर्ड किया गया अनुक्रम है जो बताता है कि किसी कार्य को कैसे करना है। प्रदर्शन व्यवहार क्लोनिंग और अन्य अनुकरण शिक्षण एल्गोरिदम के लिए प्राथमिक डेटा स्रोत हैं। इन्हें के माध्यम से एकत्र किया जा सकता है टेलीऑपरेशन, गतिज शिक्षण, या मोशन कैप्चर। डेटा गुणवत्ता - सुचारू गति, निरंतर कार्य निष्पादन, कार्य की स्थिति की पर्याप्त कवरेज - डाउनस्ट्रीम नीति प्रदर्शन के लिए मात्रा जितनी ही मायने रखती है। एसवीआरसी हमारे माध्यम से उत्पादन-गुणवत्ता वाले रोबोट प्रदर्शन एकत्र करता है डेटा सेवाएँ.
प्रसार नीति
प्रसार नीति, ची एट अल द्वारा प्रस्तुत की गई। (2023), रोबोट एक्शन जेनरेशन को एक डीनोइजिंग प्रसार प्रक्रिया के रूप में तैयार करता है - छवि निर्माण में उपयोग किए जाने वाले जेनरेटिव मॉडल का समान वर्ग। अनुमान के समय, नीति एक सीखे हुए स्कोर नेटवर्क (आमतौर पर एक सीएनएन या ट्रांसफार्मर) का उपयोग करके वर्तमान अवलोकन पर वातानुकूलित क्रियाओं के अनुक्रम में गॉसियन शोर के नमूने को पुनरावृत्त रूप से परिष्कृत करती है। नियतात्मक व्यवहार क्लोनिंग की तुलना में, प्रसार नीति स्वाभाविक रूप से प्रतिनिधित्व करती है बहुविध कार्रवाई वितरण (किसी कार्य को करने के कई वैध तरीके) और संपर्क-समृद्ध हेरफेर बेंचमार्क पर अत्याधुनिक परिणाम प्राप्त करते हैं। देखें विस्तृत आलेख.
निपुण हेरफेर
निपुण हेरफेर से तात्पर्य सूक्ष्म, बहु-उंगलियों वाले हेरफेर कार्यों से है जो रोबोटिक हाथ की पूर्ण गतिज और संवेदी क्षमताओं का उपयोग करते हैं - हाथ में पुनः पकड़ना, उंगलियों पर वस्तुओं को घुमाना, कार्ड डीलिंग, सर्जिकल टांके लगाना और इसी तरह के कार्य। निपुणता के लिए उच्च की आवश्यकता होती है-DOF अंत-प्रभावक (5+ उंगलियां, प्रत्येक 3+ जोड़ों के साथ), घनी स्पर्श संवेदना, और जटिल संपर्क ज्यामिति के बारे में तर्क करने में सक्षम नीतियां। सिमुलेशन में प्रशिक्षित सुदृढीकरण सीखने (उदाहरण के लिए, ओपनएआई के डैक्टाइल) और हाल की प्रसार-आधारित नीतियों ने सीमा को आगे बढ़ाया है, लेकिन मानव-स्तर की विश्वसनीयता में कुशल हेरफेर एक खुली शोध समस्या बनी हुई है।
E
सन्निहित एआई
सन्निहित एआई कृत्रिम बुद्धिमत्ता प्रणालियों को संदर्भित करता है जो अलगाव में पाठ या छवियों पर पूरी तरह से काम करने के बजाय वास्तविक दुनिया में स्थित एक भौतिक शरीर के माध्यम से अनुभव और कार्य करता है। अवतार परिकल्पना मानती है कि सच्ची बुद्धिमत्ता के लिए सेंसरिमोटर ग्राउंडिंग की आवश्यकता होती है - बातचीत के माध्यम से सीखना, न कि केवल स्थिर डेटासेट पर पैटर्न मिलान। व्यवहार में, सन्निहित एआई अनुसंधान में रोबोट सीखना शामिल है, वीएलए मॉडल, सिम-टू-रियल ट्रांसफर, और फिजिकल फाउंडेशन मॉडल। Google DeepMind (RT श्रृंखला), फिजिकल इंटेलिजेंस (pi0), और NVIDIA (GR00T) जैसी कंपनियां प्राथमिक औद्योगिक चालक हैं। एसवीआरसी का अपना डेटा प्लेटफ़ॉर्म सन्निहित AI डेटा वर्कफ़्लो के लिए बनाया गया है।
अंत-प्रभावक
एंड-इफ़ेक्टर रोबोट बांह के दूरस्थ सिरे पर स्थित उपकरण है जो सीधे पर्यावरण के साथ संपर्क करता है। यह एक समानांतर-जबड़ा ग्रिपर, एक सक्शन कप, एक बहु-उंगली वाला हाथ, एक वेल्डिंग टॉर्च, एक पेंट नोजल, या कोई कार्य-विशिष्ट उपकरण हो सकता है। अंतिम-प्रभावक की मुद्रा - अंतरिक्ष में इसकी स्थिति और अभिविन्यास - अधिकांश हेरफेर नीतियों के लिए प्राथमिक नियंत्रण आउटपुट है। टूल सेंटर पॉइंट (टीसीपी) कार्टेशियन नियंत्रण के लिए उपयोग किए जाने वाले अंतिम-प्रभावक पर संदर्भ बिंदु है। सही एंड-इफ़ेक्टर चुनना एक महत्वपूर्ण परिनियोजन निर्णय है: एक ऑब्जेक्ट क्लास (उदाहरण के लिए, कठोर बक्से) के लिए अनुकूलित ग्रिपर नरम या अनियमित वस्तुओं पर विफल हो सकते हैं। ब्राउज़ एसवीआरसी हार्डवेयर विकल्प.
एपिसोड
एक एपिसोड किसी कार्य पर एक एकल, पूर्ण प्रयास है - प्रारंभिक अवस्था से लेकर कार्य की सफलता, विफलता या समय समाप्ति तक। सुदृढीकरण सीखने में, एजेंट एक एपिसोड के लिए पर्यावरण के साथ बातचीत करता है, पुरस्कार जमा करता है, और फिर पर्यावरण रीसेट हो जाता है। अनुकरण सीखने में, प्रत्येक रिकॉर्ड किया गया प्रदर्शन एक एपिसोड का गठन करता है। एपिसोड रोबोट लर्निंग डेटासेट की मूलभूत इकाई हैं: 1,000 एपिसोड के डेटासेट में संबंधित टिप्पणियों, कार्यों और परिणामों के साथ 1,000 कार्य प्रयास होते हैं। लगातार डेटा संग्रह सुनिश्चित करने के लिए एपिसोड की लंबाई, रीसेट स्थितियां और सफलता मानदंड को सटीक रूप से परिभाषित किया जाना चाहिए।
बाह्य (कैमरा)
कैमरा एक्सट्रिंसिक्स एक संदर्भ फ्रेम के सापेक्ष कैमरे की स्थिति और अभिविन्यास (6-डीओएफ पोज़) को परिभाषित करता है - आमतौर पर रोबोट बेस या एंड-इफ़ेक्टर। आंतरिक मापदंडों (फोकल लंबाई, मुख्य बिंदु, लेंस विरूपण) के साथ, बाहरी पैरामीटर 3डी विश्व बिंदुओं को छवि तल पर प्रक्षेपित करने और, इसके विपरीत, 2डी पहचान को 3डी स्पेस में उठाने की अनुमति देते हैं। विज़ुओमोटर नीतियों के लिए सटीक बाहरी अंशांकन महत्वपूर्ण है, जिसे एक सुसंगत समन्वय फ्रेम में रोबोट क्रियाओं के दृश्य अवलोकनों को मैप करना होगा। जब एंड-इफ़ेक्टर या कैमरा बदला जाता है तो आई-इन-हैंड (कलाई पर लगे) कैमरों को पुन: अंशांकन की आवश्यकता होती है।
F
फोर्स टॉर्क सेंसर (एफटी सेंसर)
एक बल-टॉर्क सेंसर रोबोट की कलाई या अंत-प्रभावक पर लगाए गए छह-अक्ष रिंच (तीन बल Fx, Fy, Fz और तीन टॉर्क Tx, Ty, Tz) को मापता है। एफटी सेंसर संपर्क-समृद्ध और असेंबली कार्यों के लिए आवश्यक हैं जहां शुद्ध स्थिति नियंत्रण या तो संपर्कों को चूक जाएगा या अत्यधिक बल लागू करेगा। वे प्रतिबाधा और प्रवेश नियंत्रण लूप सक्षम करते हैं, फिसलन और टकराव का पता लगाते हैं, और सीखी गई नीतियों के लिए समृद्ध संवेदी इनपुट प्रदान करते हैं। एटीआई और रोबोटिक के उच्च परिशुद्धता एफटी सेंसर अनुसंधान प्रयोगशालाओं में मानक हैं; एमईएमएस-आधारित कम लागत वाले सेंसर उत्पादन तैनाती के लिए तेजी से व्यवहार्य हैं।
फाउंडेशन मॉडल (रोबोटिक्स)
फाउंडेशन मॉडल व्यापक, विविध डेटा पर पहले से प्रशिक्षित एक बड़ा तंत्रिका नेटवर्क है जिसे फाइन-ट्यूनिंग या प्रॉम्प्टिंग के माध्यम से कई डाउनस्ट्रीम कार्यों में अनुकूलित किया जा सकता है। रोबोटिक्स में, फाउंडेशन मॉडल आम तौर पर बड़े विज़न-लैंग्वेज मॉडल (वीएलएम) होते हैं जिन्हें एक्शन आउटपुट के साथ विस्तारित किया जाता है वीएलए, या क्रॉस-अवतार डेटासेट पर प्रशिक्षित बड़ी विज़ुओमोटर नीतियां। उदाहरणों में RT-2 (Google DeepMind), OpenVLA, Octo, और pi0 (फिजिकल इंटेलिजेंस) शामिल हैं। रोबोटिक्स के लिए फाउंडेशन मॉडल आकर्षक हैं क्योंकि वे इंटरनेट-स्केल प्रीट्रेनिंग का लाभ उठा सकते हैं, भाषा कंडीशनिंग का समर्थन कर सकते हैं, और प्रति-कार्य को फिर से शुरू किए बिना कार्यों में सामान्यीकृत कर सकते हैं। देखना एसवीआरसी मॉडल कैटलॉग.
फॉरवर्ड किनेमेटिक्स (एफके)
फॉरवर्ड किनेमेटिक्स रोबोट के संयुक्त कोण (या प्रिज्मीय जोड़ों के लिए विस्थापन) को देखते हुए कार्टेशियन स्पेस में अंतिम-प्रभावक की मुद्रा की गणना करता है। एक सीरियल चेन रोबोट के लिए, एफके की गणना सजातीय परिवर्तन मैट्रिक्स (एक प्रति जोड़) के अनुक्रम को गुणा करके की जाती है, जो आमतौर पर डेनाविट-हार्टेनबर्ग (डीएच) पैरामीटर या यूआरडीएफ विवरण से प्राप्त होता है। एफके के पास हमेशा एक अनूठा समाधान होता है - संयुक्त कोण दिए जाने पर, बिल्कुल एक अंत-प्रभावक मुद्रा होती है - विपरीत समस्या के विपरीत (IK), जिसके शून्य, एक या अनेक समाधान हो सकते हैं। एफके का उपयोग सिमुलेशन, टकराव जांच, विज़ुअलाइज़ेशन और वास्तविक समय रोबोट स्थिति निगरानी में किया जाता है।
G
सामान्यकरण (रोबोट नीति)
सामान्यीकरण मापता है कि रोबोट नीति उन वस्तुओं, दृश्यों या कार्यों पर कितना अच्छा प्रदर्शन करती है जिन्हें उसने प्रशिक्षण के दौरान नहीं देखा है। यह रोबोट सीखने की केंद्रीय चुनौती है: एक ऐसी नीति जो प्रशिक्षण प्रदर्शनों को याद रखती है लेकिन नए उदाहरणों पर विफल रहती है, उसका कोई व्यावहारिक मूल्य नहीं है। शोधकर्ता वस्तु सामान्यीकरण (ज्ञात श्रेणियों के नए उदाहरण), श्रेणी सामान्यीकरण (पूरी तरह से नए वस्तु वर्ग), और कार्य सामान्यीकरण (नए निर्देश वाक्यांश या लक्ष्य विन्यास) में अंतर करते हैं। सामान्यीकरण में सुधार के लिए आम तौर पर बड़े और अधिक विविध प्रशिक्षण डेटा, इंटरनेट डेटा के साथ सह-प्रशिक्षण, सिमुलेशन में डोमेन यादृच्छिकीकरण और की आवश्यकता होती है। फाउंडेशन मॉडल पूर्व.
पकड़ मुद्रा
ग्रैस्प पोज़ किसी वस्तु के सापेक्ष रोबोट के हाथ या ग्रिपर की 6-डीओएफ स्थिति और अभिविन्यास को निर्दिष्ट करता है ताकि ग्रिपर वस्तु को बंद कर सके और सुरक्षित रूप से पकड़ सके। ग्रैस्प पोज़ का आकलन आम तौर पर विश्लेषणात्मक तरीकों (उदाहरण के लिए, एंटीपोडल ग्रैस्प सैंपलिंग) या ग्रैस्पनेट-1 बिलियन, जीक्यू-सीएनएन, या एनीग्रास्प जैसे सीखे गए डिटेक्टरों का उपयोग करके गहराई या बिंदु-क्लाउड डेटा से किया जाता है। एक वैध ग्रैस्प पोज़ रोबोट द्वारा पहुंच योग्य होना चाहिए, दृष्टिकोण के दौरान टकराव-मुक्त और अपेक्षित कार्य भार के तहत स्थिर होना चाहिए। समझ गुणवत्ता मेट्रिक्स में बल-क्लोजर, संपर्क स्थिरता और कार्य-विशिष्ट रिंच प्रतिरोध शामिल हैं।
ग्रिपर
ग्रिपर रोबोट का सबसे सामान्य वर्ग है अंत-प्रभावक, वस्तुओं को पकड़ने और पकड़ने के लिए डिज़ाइन किया गया। समानांतर-जबड़े ग्रिपर सबसे सरल और सबसे व्यापक रूप से उपयोग किए जाने वाले उपकरण हैं, जिनमें दो विपरीत उंगलियां मोटर या न्यूमेटिक्स द्वारा संचालित होती हैं। सक्शन ग्रिपर चिकनी, सपाट सतहों को चुनने के लिए वैक्यूम का उपयोग करते हैं। नरम ग्रिपर अनियमित वस्तुओं के अनुरूप बनाने के लिए अनुरूप सामग्री (सिलिकॉन, कपड़े) का उपयोग करते हैं। बहु-उँगलियों वाले हाथ (3-5 उंगलियाँ) सक्षम करते हैं निपुण हेरफेर लेकिन इन्हें नियंत्रित करना कठिन और अधिक महंगा है। ग्रिपर का चयन वस्तु ज्यामिति, सतह के गुणों, आवश्यक पेलोड और हाथ में पुनर्संरचना की आवश्यकता है या नहीं, इस पर गंभीर रूप से निर्भर करता है।
H
HDF5 (पदानुक्रमित डेटा प्रारूप v5)
HDF5 बड़े, संरचित वैज्ञानिक डेटासेट को कुशलतापूर्वक संग्रहीत करने और उन तक पहुंचने के लिए एक बाइनरी फ़ाइल प्रारूप और लाइब्रेरी है। रोबोटिक्स में, HDF5 रोबोट प्रदर्शन डेटासेट के लिए मानक कंटेनर है: एक एकल फ़ाइल सिंक्रनाइज़ कैमरा छवियों, संयुक्त कोण, ग्रिपर स्थिति, बल रीडिंग और मेटाडेटा को पदानुक्रमित समूहों में संग्रहीत करती है, जिसमें खंडित I/O प्रशिक्षण के दौरान तेज़ यादृच्छिक पहुंच को सक्षम करता है। LeRobot और ALOHA पारिस्थितिकी तंत्र दोनों मूल रूप से HDF5 का उपयोग करते हैं। विकल्प ज़ार प्रारूप समवर्ती लेखन के लिए बेहतर समर्थन के साथ क्लाउड-नेटिव चंक्ड स्टोरेज प्रदान करता है। एसवीआरसी का डेटा संग्रह पाइपलाइन डिफ़ॉल्ट रूप से एचडीएफ5 आउटपुट।
ह्यूमनॉइड रोबोट
एक ह्यूमनॉइड रोबोट की शारीरिक संरचना मोटे तौर पर मानव के समान होती है - आमतौर पर एक धड़, दो पैर, दो हाथ और एक सिर - जो इसे लोगों के लिए डिज़ाइन किए गए वातावरण में काम करने और मानव उपकरणों का उपयोग करने में सक्षम बनाता है। उल्लेखनीय ह्यूमनॉइड्स में बोस्टन डायनेमिक्स एटलस, एजिलिटी रोबोटिक्स डिजिट, फिगर 01 और टेस्ला ऑप्टिमस शामिल हैं। ह्यूमनॉइड्स अत्यधिक इंजीनियरिंग चुनौतियां पेश करते हैं: द्विपाद गति के लिए वास्तविक समय संतुलन नियंत्रण की आवश्यकता होती है, और लोको-हेरफेर कार्यों के लिए 30+ डीओएफ का समन्वय आवश्यक होता है पूरे शरीर पर नियंत्रण. इस जटिलता के बावजूद, ह्यूमनॉइड्स भारी निवेश को आकर्षित कर रहे हैं क्योंकि उनका फॉर्म फैक्टर बुनियादी ढांचे में बदलाव के बिना विभिन्न कार्यस्थलों में सामान्यीकृत होता है।
मानव-रोबोट संपर्क (एचआरआई)
मानव-रोबोट संपर्क एक अंतःविषय क्षेत्र है जिसमें अध्ययन किया जाता है कि कैसे लोग और रोबोट भौतिक स्थान को प्रभावी ढंग से और सुरक्षित रूप से संचार, सहयोग और साझा करते हैं। एचआरआई अनुसंधान सुरक्षा मानकों (सहयोगी रोबोटों के लिए आईएसओ/टीएस 15066), टेलीऑपरेशन के लिए यूजर इंटरफेस डिजाइन, प्राकृतिक भाषा निर्देश, सुपाठ्य रोबोट गति (रोबोट के इरादे को दर्शकों के लिए पढ़ने योग्य बनाना), और सामाजिक रोबोटिक्स (गैर-मौखिक संचार के लिए टकटकी, इशारा और भाषण का उपयोग करना) तक फैला हुआ है। औद्योगिक सह-बॉट तैनाती में, एचआरआई सीधे यह निर्धारित करता है कि कर्मचारी अपने साथ रोबोट को स्वीकार करते हैं और प्रभावी ढंग से उनका उपयोग करते हैं या नहीं। अच्छा एचआरआई डिज़ाइन दुर्घटनाओं को कम करता है, थ्रूपुट में सुधार करता है और मानव पक्ष पर प्रशिक्षण का बोझ कम करता है।
I
नकल सीखना (आईएल)
नकल सीखना मशीन सीखने के तरीकों का एक परिवार है जो रोबोट नीतियों को इंजीनियर किए गए इनाम कार्यों के बजाय मानव प्रदर्शनों से प्रशिक्षित करता है। सबसे सरल रूप है व्यवहारिक क्लोनिंग (राज्य-कार्रवाई जोड़े पर पर्यवेक्षित प्रतिगमन)। अधिक उन्नत वेरिएंट - डीएगर (पुनरावृत्त सुधार), गेल (प्रतिकूल नकल), और आईआरएल (इनाम फ़ंक्शन पुनर्प्राप्त करना) - वितरण बदलाव और इनाम विनिर्देश समस्याओं को संबोधित करते हैं जो शुद्ध बीसी को परेशान करते हैं। कुशल हेरफेर सिखाने के लिए आईएल प्रमुख प्रतिमान बन गया है क्योंकि जटिल हेरफेर के लिए इनाम इंजीनियरिंग बेहद कठिन है, जबकि मानव प्रदर्शनों को इकट्ठा करना बड़े पैमाने पर संभव है टेलीऑपरेशन. देखें पूर्ण गहन लेख.
उलटा किनेमेटिक्स (मैं)
व्युत्क्रम गतिकी उन संयुक्त कोणों को हल करती है जो रोबोट के अंतिम-प्रभावक को वांछित कार्टेशियन मुद्रा में रखते हैं। भिन्न आगे की गतिकी, IK में रोबोट की गतिक संरचना और लक्ष्य मुद्रा के आधार पर शून्य, एक या अनंत रूप से कई समाधान हो सकते हैं। मानक 6-डीओएफ कॉन्फ़िगरेशन के लिए विश्लेषणात्मक आईके सॉल्वर मौजूद हैं; संख्यात्मक विधियाँ (जैकोबियन छद्म-उलटा, न्यूटन-राफसन, अनुकूलन-आधारित) मनमानी ज्यामिति और अनावश्यक रोबोट को संभालती हैं। IK का उपयोग मोशन प्लानिंग, टेलीऑपरेशन मैपिंग (ऑपरेटर के हाथ की मुद्रा को संयुक्त कमांड में परिवर्तित करना), और किसी भी कार्टेशियन-स्पेस कंट्रोलर में किया जाता है। KDL, IKFast और ट्रैक-ik जैसी लाइब्रेरी आमतौर पर ROS वातावरण में उपयोग की जाती हैं।
इसहाक सिम
NVIDIA आइज़ैक सिम एक रोबोटिक्स सिमुलेशन प्लेटफ़ॉर्म है जो ओमनिवर्स USD फ्रेमवर्क पर बनाया गया है, जो उच्च-निष्ठा भौतिकी (PhysX 5 के माध्यम से), फोटो-यथार्थवादी प्रतिपादन (RTX पथ ट्रेसिंग के माध्यम से), और बॉक्स से बाहर ROS 2 एकीकरण प्रदान करता है। इसका उद्देश्य सिंथेटिक प्रशिक्षण डेटा तैयार करना, रोबोट नीतियों का परीक्षण करना और सिम-टू-रियल ट्रांसफर अनुसंधान करना है। आइजैक सिम बड़े पैमाने पर बनावट, प्रकाश व्यवस्था और ऑब्जेक्ट पोज़ के डोमेन रैंडमाइजेशन का समर्थन करता है, और NVIDIA के आइजैक लैब सुदृढीकरण सीखने के ढांचे के साथ एकीकृत होता है। इसकी जीपीयू-त्वरित भौतिकी हजारों समानांतर सिमुलेशन उदाहरणों के साथ आरएल नीतियों को प्रशिक्षित करने की अनुमति देती है। पर और जानें एसवीआरसी इसाक सिम संसाधन पृष्ठ.
J
संयुक्त स्थान (कॉन्फ़िगरेशन स्थान)
संयुक्त स्थान (जिसे कॉन्फ़िगरेशन स्थान या सी-स्पेस भी कहा जाता है) एक रोबोट के लिए सभी संभावित संयुक्त कोण वैक्टर का स्थान है। संयुक्त स्थान में एक बिंदु विशिष्ट रूप से रोबोट के पूर्ण विन्यास को निर्दिष्ट करता है। आरआरटी और पीआरएम जैसे मोशन प्लानिंग एल्गोरिदम कॉन्फ़िगरेशन के बीच टकराव-मुक्त पथ खोजने के लिए संयुक्त स्थान में काम करते हैं, क्योंकि कार्टेशियन स्पेस की तुलना में वहां टकराव की जांच अधिक सरल है। कई आरएल नीतियां सीधे संयुक्त स्थान में संयुक्त स्थिति या वेग का उत्पादन करती हैं, जबकि अनुकरण सीखने की नीतियां अक्सर काम करती हैं कार्तीय स्थान आसान मानव-प्रदर्शनकर्ता संरेखण के लिए। देखें संयुक्त अंतरिक्ष लेख.
संयुक्त टोक़
संयुक्त टॉर्क एक मोटर द्वारा रोबोट के जोड़ पर लगाया जाने वाला घूर्णी बल है, जिसे न्यूटन-मीटर (एनएम) में मापा जाता है। टॉर्क-नियंत्रित रोबोट (स्थिति-नियंत्रित रोबोटों के विपरीत) संपर्क बलों को सीधे नियंत्रित कर सकते हैं, जिससे धकेले जाने पर झुकना और असेंबली बलों को सटीक रूप से नियंत्रित करने जैसे अनुरूप व्यवहार सक्षम हो सकते हैं। प्रत्येक जोड़ पर टॉर्क सेंसिंग फ्रेंका पांडा, यूनिवर्सल रोबोट यूआर श्रृंखला और कूका आईवा जैसे सहयोगी रोबोट (कोबोट) की एक प्रमुख विशेषता है, जो सुरक्षित मानव-रोबोट सहयोग और पूरे शरीर के अनुरूप नियंत्रण को सक्षम बनाता है। सीखने की नीतियां जो स्थिति के बजाय संयुक्त टॉर्क का उत्पादन करती हैं, उन्हें अस्थिर दोलनों से बचने के लिए सावधानीपूर्वक प्रशिक्षण की आवश्यकता होती है।
K
गतिज श्रृंखला
गतिज श्रृंखला जोड़ों से जुड़ी कठोर शारीरिक कड़ियों की एक श्रृंखला है जो मिलकर एक रोबोट की यांत्रिक संरचना बनाती है। एक खुली श्रृंखला (सीरियल रोबोट बांह) में एक मुक्त अंत (अंत-प्रभावक) होता है, जो एफके को सीधा बनाता है। एक बंद श्रृंखला (समानांतर रोबोट, हेक्सापॉड) में कई लूप होते हैं जो उच्च कठोरता और गति प्रदान करते हैं लेकिन अधिक जटिल कीनेमेटिक्स की आवश्यकता होती है। गतिज श्रृंखला रोबोट के कार्यक्षेत्र, विलक्षणताओं और कार्टेशियन नियंत्रण के लिए उपयोग किए जाने वाले जैकोबियन मैट्रिक्स को निर्धारित करती है। यूआरडीएफ फाइलें सिमुलेशन और नियंत्रण सॉफ्टवेयर के लिए लिंक और जोड़ों के पेड़ के रूप में गतिज श्रृंखलाओं का वर्णन करती हैं।
गतिज शिक्षण
काइनेस्टेटिक शिक्षण (जिसे लीड-बाय-नोज़ या प्रत्यक्ष मार्गदर्शन भी कहा जाता है) रोबोट प्रोग्रामिंग की एक विधि है जहां एक मानव शारीरिक रूप से रोबोट की भुजा को पकड़ता है और उसे वांछित गति पथ के माध्यम से ले जाता है जबकि रोबोट प्रक्षेप पथ को रिकॉर्ड करता है। इसके लिए रोबोट को बैकड्राइवेबल (कम संयुक्त घर्षण और अनुपालन) होना आवश्यक है ताकि ऑपरेटर इसे न्यूनतम प्रयास के साथ स्थानांतरित कर सके। काइनेस्टेटिक शिक्षण सहज है और इसके लिए किसी बाहरी हार्डवेयर की आवश्यकता नहीं है, लेकिन यह उन कार्यों तक सीमित है जिन्हें ऑपरेटर भौतिक रूप से प्रदर्शित कर सकता है, और यह केवल प्रोप्रियोसेप्टिव डेटा (कोई कलाई कैमरा अवलोकन नहीं) उत्पन्न करता है जब तक कि कैमरे सह-रिकॉर्ड नहीं किए जाते हैं। फ्रेंका पांडा जैसे टॉर्क-नियंत्रित रोबोट पर गुरुत्वाकर्षण मुआवजा मोड गतिज शिक्षण को व्यावहारिक बनाता है।
L
भाषा-वातानुकूलित नीति
एक भाषा-वातानुकूलित नीति दृश्य अवलोकनों के साथ एक अतिरिक्त इनपुट के रूप में एक प्राकृतिक भाषा निर्देश लेती है (उदाहरण के लिए, "लाल कप उठाएं और इसे ट्रे पर रखें"), एक एकल नीति नेटवर्क को पुन: प्रशिक्षण के बिना रनटाइम पर चयनित कई कार्यों को करने में सक्षम बनाता है। भाषा कंडीशनिंग को आमतौर पर पूर्व-प्रशिक्षित भाषा मॉडल (सीएलआईपी, टी5, पीएएलएम) के साथ निर्देशों को एन्कोड करके और छवि सुविधाओं के साथ परिणामी एम्बेडिंग को फ्यूज करके कार्यान्वित किया जाता है। वीएलए मॉडल जैसे कि RT-2, OpenVLA, और pi0 डिज़ाइन द्वारा भाषा-अनुकूलित हैं। यह दृष्टिकोण प्रति कार्य के लिए अलग-अलग नीतियों को प्रशिक्षित करने की आवश्यकता को कम करता है और नवीन निर्देश वाक्यांशों के लिए शून्य-शॉट सामान्यीकरण का समर्थन करता है।
अव्यक्त स्थान
एक अव्यक्त स्थान एक तंत्रिका नेटवर्क द्वारा सीखे गए डेटा का एक संपीड़ित, निम्न-आयामी प्रतिनिधित्व है - एक एनकोडर का आउटपुट जो एक अवलोकन के सबसे कार्य-प्रासंगिक विशेषताओं को कैप्चर करता है। रोबोट सीखने में, दृश्य दृश्यों के संरचित प्रतिनिधित्व को सीखने के लिए वीएई (वैरिएशनल ऑटोएन्कोडर्स) में अव्यक्त स्थानों का उपयोग किया जाता है, भविष्य की स्थितियों की भविष्यवाणी करने के लिए विश्व मॉडल में, और मल्टीमॉडल एक्शन वितरण को एन्कोड करने के लिए सीवीएई-आधारित नीतियों (जैसे एसीटी) में उपयोग किया जाता है। एक अच्छी तरह से संरचित अव्यक्त स्थान शब्दार्थ रूप से समान अवलोकनों को एक साथ रखता है, जो कच्चे पिक्सेल स्थान के बजाय अव्यक्त डोमेन में इंटरपोलेशन, योजना और डेटा वृद्धि को सक्षम बनाता है।
लेरोबोट
लेरोबोट रोबोट सीखने के लिए हगिंग फेस की ओपन-सोर्स लाइब्रेरी है, जो नकल सीखने के एल्गोरिदम के मानकीकृत कार्यान्वयन प्रदान करता है (ACT, प्रसार नीति, टीडीएमपीसी), एक एकीकृत डेटासेट प्रारूप, विज़ुअलाइज़ेशन उपकरण और पूर्व-प्रशिक्षित मॉडल भार। इसका उद्देश्य एनएलपी के लिए ट्रांसफॉर्मर्स ने जो किया उसके अनुरूप एक एकल समेकित ढांचा प्रदान करके रोबोट सीखने के अनुसंधान में प्रवेश की बाधा को कम करना है। लेरोबोट डेटासेट और मॉडल साझाकरण के लिए हगिंग फेस हब के साथ एकीकृत होता है, और सिम्युलेटेड (जिमनेजियम-रोबोटिक्स, म्यूजोको) और भौतिक रोबोट वातावरण दोनों का समर्थन करता है। इसके साथ ही साथी SO-100 कम लागत वाली रोबोट किट भी जारी की गई।
लेरोबोट एचएफ डेटासेट
लेरोबोट डेटासेट प्रारूप हगिंग फेस हब पर होस्ट किए गए रोबोट प्रदर्शन डेटा के लिए एक मानकीकृत स्कीमा है। प्रत्येक डेटासेट में Parquet फ़ाइलें (स्केलर टाइमसीरीज़ के लिए: संयुक्त स्थिति, कार्य, पुरस्कार, किए गए फ़्लैग) और कैमरा स्ट्रीम के लिए संपीड़ित MP4 वीडियो भाग होते हैं, सभी एपिसोड और फ़्रेम द्वारा अनुक्रमित होते हैं। ए meta/info.json फ़ाइल कैमरा नाम, रोबोट प्रकार, एफपीएस और सामान्यीकरण के लिए उपयोग किए जाने वाले डेटा आंकड़ों का वर्णन करती है। यह प्रारूप किसी भी LeRobot-संगत एल्गोरिदम को किसी भी प्रकाशित डेटासेट को कोड की एक पंक्ति के साथ लोड करने की अनुमति देता है, जिससे तेजी से क्रॉस-डेटासेट प्रयोग सक्षम होता है। दर्जनों हेरफेर और मोबाइल हेरफेर डेटासेट पहले से ही इस प्रारूप में प्रकाशित हैं।
M
चालाकी
हेरफेर से तात्पर्य वस्तुओं के साथ उद्देश्यपूर्ण शारीरिक संपर्क से है - चुनना, रखना, संयोजन करना, मोड़ना, डालना, डालना और इसी तरह के कार्य। सन्निहित एआई में रोबोट हेरफेर सबसे सक्रिय अनुसंधान क्षेत्रों में से एक है, क्योंकि यहां तक कि सरल रोजमर्रा के कार्यों (डिशवॉशर को लोड करना, पैकेज खोलना) के लिए समृद्ध धारणा, सटीक मोटर नियंत्रण और मजबूत समझ योजना की आवश्यकता होती है। संपर्क-समृद्ध असेंबली के माध्यम से, संपर्क-समृद्ध असेंबली के माध्यम से, असंरचित दृश्यों में उपन्यास वस्तुओं के साथ पूरी तरह से कुशल इन-हैंड पुनर्संरचना तक, निश्चित सेटअप में ज्ञात वस्तुओं के साथ सरल पिक-एंड-प्लेस से हेरफेर कठिनाई स्केल। एसवीआरसी का डेटा सेवाएँ प्रशिक्षण और मूल्यांकन के लिए हेरफेर प्रदर्शन एकत्र करने में विशेषज्ञ।
इसे हटाएं
MoveIt रोबोट हथियारों के लिए सबसे व्यापक रूप से इस्तेमाल किया जाने वाला ओपन-सोर्स मोशन प्लानिंग फ्रेमवर्क है, जिसे मूल रूप से विलो गैराज में विकसित किया गया था और अब इसे पिकनिक रोबोटिक्स द्वारा बनाए रखा गया है। MoveIt 2 ROS 2 पर चलता है और प्लानर (OMPL, CHOMP, PILZ), कार्टेशियन प्रक्षेपवक्र योजना, MoveIt के नियोजन दृश्य के विरुद्ध टकराव की जाँच, किनेमेटिक्स प्लगइन्स (KDL, IKFast, TracIK), और ग्रैस्प प्लानिंग एकीकरण प्रदान करता है। यह रोबोट सीखने की नीति (जो वांछित अंत-प्रभावक पोज़ या वेपॉइंट्स को आउटपुट करता है) और निम्न-स्तरीय संयुक्त नियंत्रक के बीच मानक मिडलवेयर परत है जो भौतिक रोबोट पर चिकनी, टकराव-मुक्त प्रक्षेपवक्र निष्पादित करता है।
बहु-कार्य सीखना
मल्टी-टास्क लर्निंग एक साथ कई अलग-अलग कार्यों के प्रदर्शन पर एक ही नीति को प्रशिक्षित करता है, इस उम्मीद के साथ कि कार्यों में सीखे गए साझा प्रतिनिधित्व प्रत्येक व्यक्तिगत कार्य पर प्रदर्शन में सुधार करते हैं और नए कार्यों के लिए सामान्यीकरण को सक्षम करते हैं। रोबोटिक्स में, इसका अर्थ अक्सर विभिन्न वस्तुओं, लक्ष्यों और वातावरणों के साथ सैकड़ों कार्यों पर प्रशिक्षण होता है। मुख्य चुनौती विभिन्न कार्यों के क्रमिक योगदान (ग्रेडिएंट हस्तक्षेप) को संतुलित करना है और यह सुनिश्चित करना है कि नीति अनुमान के समय कार्यों के बीच अंतर कर सके - आमतौर पर भाषा कंडीशनिंग या एक-हॉट कार्य पहचानकर्ताओं के माध्यम से। सामान्य प्रयोजन वाले रोबोटिक सहायकों के लिए बहु-कार्य नीतियां एक पूर्वापेक्षा है।
N
तंत्रिका नीति
एक तंत्रिका नीति एक तंत्रिका नेटवर्क द्वारा मानकीकृत एक रोबोट नियंत्रण नीति है जो अवलोकनों (छवियों, प्रोप्रियोसेप्शन, भाषा) को सीधे क्रियाओं (संयुक्त स्थिति, कार्टेशियन डेल्टा, ग्रिपर कमांड) पर मैप करती है। शास्त्रीय गति नियोजन पाइपलाइनों के विपरीत, तंत्रिका नीतियां हाथ से इंजीनियर किए गए मध्यवर्ती अभ्यावेदन के बिना डेटा से शुरू से अंत तक मैपिंग सीखती हैं। आधुनिक तंत्रिका नीतियां दृष्टि के लिए कन्वेन्शनल एनकोडर, अनुक्रम मॉडलिंग के लिए ट्रांसफार्मर और एक्शन जेनरेशन के लिए एसीटी, डिफ्यूजन पॉलिसी या वीएलए बैकबोन जैसे आर्किटेक्चर का उपयोग करती हैं। तंत्रिका नीतियों की एक प्रमुख संपत्ति यह है कि उन्हें प्रदर्शनों या इनाम संकेतों से प्रशिक्षित किया जा सकता है, जिससे वे हाथ से कोडित नियंत्रकों के लिए बहुत जटिल कार्यों को संभालने में सक्षम हो सकते हैं।
गैर-प्रीहेंसाइल हेरफेर
गैर-प्रीहेंसाइल हेरफेर से तात्पर्य वस्तुओं को पकड़े बिना उनमें हेरफेर करना है - इसके बजाय धक्का देना, रोल करना, घुमाना, फ़्लिप करना, झुकाना या अन्य संपर्क रणनीतियों का उपयोग करना जो गुरुत्वाकर्षण और सतह घर्षण का लाभ उठाते हैं। उदाहरण के लिए, किसी बक्से को मेज पर रखने के लिए उस पर धकेलना, या खूंटी को पकड़ने से पहले उसे सीधा धक्का देना। गैर-प्रीहेंसाइल रणनीतियाँ वस्तुओं को समझने योग्य विन्यास में ले जा सकती हैं, वस्तुओं को समझने के लिए बहुत बड़ी जगह पर रख सकती हैं, या अव्यवस्थित दृश्यों में काम कर सकती हैं जहाँ समझने का तरीका संभव नहीं है। गैर-प्रीहेंसाइल क्रियाओं की योजना बनाने के लिए अर्ध-स्थैतिक या गतिशील वस्तु यांत्रिकी और संपर्क भौतिकी के मॉडलिंग की आवश्यकता होती है, जिससे यह हेरफेर और गति योजना के चौराहे पर एक सक्रिय शोध विषय बन जाता है।
O
अवलोकन स्थान
अवलोकन स्थान प्रत्येक समय-चरण पर रोबोट नीति के लिए उपलब्ध सभी सेंसर इनपुट को परिभाषित करता है। सामान्य तौर-तरीकों में कलाई या ओवरहेड कैमरों से आरजीबी छवियां, संरचित-प्रकाश या स्टीरियो सेंसर से गहराई के नक्शे, प्रोप्रियोसेप्टिव स्थिति (संयुक्त स्थिति, वेग, टोक़), ग्रिपर स्थिति, अंत-प्रभावक मुद्रा, स्पर्श रीडिंग और भाषा एम्बेडिंग या लक्ष्य छवियों जैसे कार्य-विनिर्देश इनपुट शामिल हैं। अवलोकन स्थान डिज़ाइन नीति प्रदर्शन और सामान्यीकरण को गहराई से प्रभावित करता है: समृद्ध अवलोकन अधिक जानकारी रखते हैं लेकिन मॉडल जटिलता, प्रशिक्षण समय और अप्रासंगिक दृश्य सुविधाओं के ओवरफिटिंग के जोखिम को बढ़ाते हैं।
ओपन-लूप नियंत्रण
ओपन-लूप नियंत्रण निष्पादन के दौरान सेंसर फीडबैक का उपयोग किए बिना एक पूर्व-नियोजित प्रक्षेपवक्र को निष्पादित करता है - रोबोट केवल आदेशित स्थिति या वेग का पालन करता है, चाहे वास्तव में कुछ भी हो। यह नियंत्रित वातावरण में अत्यधिक दोहराए जाने वाले कार्यों के लिए उपयुक्त है, जैसे कि सीएनसी मशीनिंग या एक निश्चित कन्वेयर पर पिक-एंड-प्लेस। ओपन-लूप नियंत्रण तेज़ और सरल है लेकिन गड़बड़ी होने पर विफल हो जाता है, क्योंकि कोई सुधारात्मक कार्रवाई नहीं की जाती है। इसके विपरीत, बंद-लूप (फीडबैक) नियंत्रण लगातार वास्तविक स्थिति की तुलना वांछित स्थिति से करता है और सुधारात्मक आदेश लागू करता है, जिससे यह परिवर्तनशील वातावरण में रोबोट सीखने के लिए कहीं अधिक मजबूत हो जाता है।
एक्स-एम्बोडिमेंट खोलें
ओपन एक्स-एम्बोडिमेंट (ओएक्सई) Google डीपमाइंड और 33 अनुसंधान संस्थानों द्वारा इकट्ठा किया गया एक बड़े पैमाने का रोबोट प्रदर्शन डेटासेट है, जिसमें 22 विभिन्न रोबोट अवतारों और 527 से अधिक कौशल के 1 मिलियन से अधिक रोबोट एपिसोड शामिल हैं। इसे सक्षम करने के लिए बनाया गया था सह-प्रशिक्षण सभी अवतारों में - परिकल्पना यह है कि विविध रोबोट अनुभव अकेले एकल-रोबोट डेटासेट की तुलना में समृद्ध हेरफेर प्रतिनिधित्व सिखाता है। ओएक्सई पर प्रशिक्षित मॉडल आरटी-एक्स ने सभी अवतारों में सकारात्मक हस्तांतरण का प्रदर्शन किया और एकल-अवतार बेसलाइन की तुलना में रुके हुए कार्यों पर प्रदर्शन में सुधार किया। ओएक्सई डेटा सार्वजनिक रूप से उपलब्ध है और इसने क्रॉस-अवतार रोबोटिक्स अनुसंधान की एक लहर को उत्प्रेरित किया है।
P
पेलोड
पेलोड वह अधिकतम द्रव्यमान है (किसी भी अंतिम-प्रभावक और टूलींग के वजन सहित) जिसे एक रोबोट भुजा अपनी रेटेड स्थिति सटीकता और गतिशील प्रदर्शन को बनाए रखते हुए ले जा सकती है। पेलोड विनिर्देश आम तौर पर सहयोगी अनुसंधान रोबोटों के लिए 1 किलोग्राम से कम (विडोएक्स 250: 250 ग्राम) से लेकर बड़े औद्योगिक हथियारों के लिए 500+ किलोग्राम तक होते हैं। गंभीर रूप से, रेटेड पेलोड को आमतौर पर हाथ को पूरी तरह फैलाकर पूरी पहुंच पर उद्धृत किया जाता है; नज़दीकी सीमा और अधिक अनुकूल मुद्रा में, रोबोट अक्सर बहुत अधिक काम संभाल सकते हैं। पेलोड सीमा से अधिक होने से सटीकता कम हो जाती है, घिसाव तेज हो जाता है, और सुरक्षा दोष या शारीरिक क्षति हो सकती है। एसवीआरसी का हार्डवेयर कैटलॉग प्रत्येक रोबोट के लिए पेलोड सूचीबद्ध करता है।
नीति (रोबोट)
रोबोट लर्निंग में, एक नीति (जिसे π दर्शाया गया है) एक फ़ंक्शन है जो टिप्पणियों को क्रियाओं में मैप करता है: π(o) → a। नीति रोबोट का सीखा हुआ "मस्तिष्क" है जो यह निर्धारित करता है कि उसे जो भी लगता है उसे देखते हुए हर समय कदम पर क्या करना है। नीतियों को तंत्रिका नेटवर्क (तंत्रिका नीतियां), निर्णय वृक्ष, गाऊसी प्रक्रियाएं या लुकअप तालिकाओं के रूप में दर्शाया जा सकता है। वे नियतात्मक (प्रति अवलोकन एक क्रिया) या स्टोकेस्टिक (क्रियाओं पर एक वितरण) हो सकते हैं। नीति की गुणवत्ता केवल प्रशिक्षण प्रदर्शनों पर ही नहीं, बल्कि विभिन्न परिस्थितियों में कार्य की सफलता दर से मापी जाती है। रोबोट सीखने की मुख्य चुनौती प्रशिक्षण नीतियां हैं जो उनके प्रशिक्षण वितरण से परे विश्वसनीय रूप से सामान्यीकरण करती हैं।
नीति कार्यान्वयन
पॉलिसी रोलआउट प्रारंभिक अवस्था से कार्य पूरा होने या टाइमआउट तक रोबोट पर (या सिमुलेशन में) प्रशिक्षित नीति को क्रियान्वित करने का एक एकल एपिसोड है। रोलआउट का उपयोग नीति प्रदर्शन का मूल्यांकन करने, आगे के प्रशिक्षण के लिए नया डेटा एकत्र करने (जैसे डीएगर या आरएल फाइन-ट्यूनिंग में), और डीबग विफलता मोड के लिए किया जाता है। विश्वसनीय प्रदर्शन अनुमान के लिए आवश्यक रोलआउट की संख्या कार्य परिवर्तनशीलता पर निर्भर करती है - उच्च-विचरण वाले कार्यों को स्थिर सफलता दर अनुमान प्राप्त करने के लिए 50+ रोलआउट की आवश्यकता हो सकती है। शोध में, सामान्यीकरण को चिह्नित करने के लिए रोलआउट को अक्सर प्रारंभिक स्थिति (इन-डिस्ट्रीब्यूशन बनाम आउट-ऑफ-डिस्ट्रीब्यूशन ऑब्जेक्ट्स/दृश्य) द्वारा वर्गीकृत किया जाता है।
पूर्व प्रशिक्षण
प्री-ट्रेनिंग मॉडल विकास का वह चरण है जिसमें कार्य-विशिष्ट फ़ाइन-ट्यूनिंग से पहले एक तंत्रिका नेटवर्क को बड़े, विविध डेटासेट पर प्रशिक्षित किया जाता है। रोबोटिक्स फाउंडेशन मॉडल के लिए, इंटरनेट-स्केल विज़न-लैंग्वेज डेटा (चित्र, वीडियो, टेक्स्ट), क्रॉस-एम्बोडिमेंट रोबोट डेटासेट (ओपन एक्स-एम्बोडिमेंट), सिंथेटिक सिमुलेशन डेटा या संयोजन पर प्रीट्रेनिंग हो सकती है। पूर्व-प्रशिक्षित मॉडल वस्तुओं, कार्यों और अवधारणाओं के समृद्ध सामान्य प्रतिनिधित्व को सीखता है जो स्क्रैच से प्रशिक्षण की तुलना में बहुत कम प्रदर्शनों के साथ डाउनस्ट्रीम रोबोट कार्यों में स्थानांतरित होता है। आरटी-2 जैसे वीएलए मॉडल की सफलता के पीछे प्री-ट्रेनिंग तंत्र है, जो रोबोटिक और इंटरनेट-स्केल प्रीट्रेनिंग दोनों से लाभान्वित होता है।
Q
क्यू-फ़ंक्शन (क्रिया-मूल्य फ़ंक्शन)
क्यू-फ़ंक्शन क्यू(एस, ए) अनुमान लगाता है कि एक एजेंट को राज्य में कार्रवाई करने और उसके बाद दी गई नीति का पालन करने पर अपेक्षित संचयी छूट वाला इनाम मिलेगा। Q-फ़ंक्शन DQN (असतत क्रियाएं) और SAC, TD3, और DDPG (निरंतर क्रियाएं) जैसे सुदृढीकरण सीखने के एल्गोरिदम के लिए केंद्रीय हैं। रोबोट आरएल में, लंबे-क्षितिज हेरफेर कार्यों के लिए सटीक क्यू-फ़ंक्शन सीखना चुनौतीपूर्ण है क्योंकि पुरस्कार विरल हैं और राज्य-क्रिया स्थान उच्च-आयामी है। ऑफ़लाइन आरएल (आईक्यूएल, सीक्यूएल) में हालिया काम ऑनलाइन इंटरैक्शन के बिना निश्चित डेटासेट से नीतियों को निकालने के लिए क्यू-फ़ंक्शन का उपयोग करता है, जिससे नकल सीखने और आरएल के बीच अंतर को पाट दिया जाता है।
अर्ध-स्थैतिक हेरफेर
अर्ध-स्थैतिक हेरफेर मानता है कि गति इतनी धीमी है कि जड़त्वीय और गतिशील बल नगण्य हैं - सिस्टम प्रत्येक पल में प्रभावी रूप से स्थैतिक संतुलन में है। यह सरलीकरण पुशिंग, स्लाइडिंग, पिवोटिंग और इन-हैंड रीग्रेस्पिंग क्रियाओं की योजना बनाने के लिए ट्रैक्टेबल संपर्क यांत्रिकी मॉडलिंग को सक्षम बनाता है। कई रोबोट हेरफेर बेंचमार्क (अधिकांश टेबलटॉप पिक-एंड-प्लेस कार्यों सहित) अर्ध-स्थैतिक शासन में काम करते हैं। जब कार्यों में तेज थ्रो, डायनेमिक कैच या हाई-स्पीड असेंबली शामिल होती है, तो अर्ध-स्थैतिक धारणाएं टूट जाती हैं और संपर्क सिमुलेशन के साथ पूर्ण कठोर-बॉडी गतिशीलता की आवश्यकता होती है (उदाहरण के लिए, म्यूजोको, इसाक सिम)।
R
रियल-टू-सिम ट्रांसफर
रियल-टू-सिम ट्रांसफर (का पूरक)। सिम-टू-रियल) में वास्तविक दुनिया से यथासंभव निकटता से मेल खाने के लिए एक सिमुलेशन का निर्माण या अंशांकन शामिल है - अनिवार्य रूप से वास्तविक स्थितियों का एक डिजिटल जुड़वां बनाना। इसका उपयोग सिमुलेशन में वास्तविक विफलता मामलों को फिर से चलाने, वास्तविक सेंसर विशेषताओं से मेल खाने वाले अतिरिक्त सिंथेटिक प्रशिक्षण डेटा उत्पन्न करने और तैनाती से पहले नीति अपडेट का सुरक्षित रूप से परीक्षण करने के लिए किया जाता है। तकनीकों में कैमरे की उपस्थिति से मेल खाने के लिए फोटोग्रामेट्रिक दृश्य पुनर्निर्माण, भौतिकी पैरामीटर पहचान (सिस्टम पहचान), और तंत्रिका प्रतिपादन विधियां (एनईआरएफ, 3 डी गॉसियन स्प्लैटिंग) शामिल हैं। सटीक रियल-टू-सिम पाइपलाइनें नीति पुनरावृत्ति के लिए आवश्यक भौतिक प्रयोगों की संख्या को नाटकीय रूप से कम कर देती हैं।
पहुँचना
पहुंच एक रोबोट बांह के आधार से किसी भी बिंदु तक की अधिकतम दूरी है, जिसका अंतिम-प्रभावक अपने कार्यक्षेत्र के भीतर पहुंच सकता है। एक सीरियल आर्म के लिए, अधिकतम पहुंच सभी लिंक लंबाई के योग के बराबर होती है। परिनियोजन में प्रभावी पहुंच छोटी होती है - संयुक्त सीमा, आत्म-टकराव से बचाव, और कई अभिविन्यासों से वस्तुओं तक पहुंचने की आवश्यकता को ध्यान में रखते हुए। रीच यह निर्धारित करती है कि कौन से वर्कस्टेशन लेआउट और ऑब्जेक्ट प्लेसमेंट संभव हैं। किसी कार्य के लिए रोबोट का चयन करते समय, इंजीनियरों को यह पुष्टि करनी चाहिए कि आवश्यक कार्यक्षेत्र (समझने के लिए सभी दृष्टिकोण दिशाओं सहित) स्वीकार्य सटीकता पर रोबोट के पहुंच योग्य दायरे में आता है।
रीप्ले बफ़र
एक रीप्ले बफ़र (या रीप्ले मेमोरी का अनुभव) पर्यावरण इंटरैक्शन के दौरान एक आरएल एजेंट द्वारा एकत्र किए गए अतीत (स्थिति, कार्रवाई, इनाम, अगली स्थिति, किया गया) संक्रमणों का एक डेटासेट है। प्रत्येक प्रशिक्षण चरण में, मूल्य फ़ंक्शन या नीति को प्रशिक्षित करने के लिए बफर से यादृच्छिक मिनी-बैचों का नमूना लिया जाता है, जो अस्थायी सहसंबंधों को तोड़ता है जो ग्रेडिएंट अपडेट को अस्थिर कर देगा। ऑफ़लाइन आरएल और रोबोट लर्निंग में, रीप्ले बफ़र को मानव प्रदर्शनों या पहले से एकत्रित रोलआउट के एक निश्चित डेटासेट द्वारा प्रतिस्थापित किया जाता है। सूचनात्मक बदलावों पर प्रशिक्षण पर ध्यान केंद्रित करने के लिए अस्थायी-अंतर त्रुटि द्वारा प्राथमिकता वाले अनुभव रीप्ले वेट सैंपलिंग।
पुरस्कार समारोह
इनाम फ़ंक्शन एक सुदृढीकरण सीखने वाले एजेंट के लिए सीखने के उद्देश्य को परिभाषित करता है: यह प्रत्येक (राज्य, कार्रवाई, अगले राज्य) संक्रमण के लिए एक स्केलर इनाम सिग्नल आर (एस, ए, एस') निर्दिष्ट करता है, एजेंट को बताता है कि उसके कार्य कितने अच्छे या बुरे हैं। रिवॉर्ड फ़ंक्शन डिज़ाइन आरएल को रोबोटिक्स में लागू करने के सबसे कठिन हिस्सों में से एक है: विरल पुरस्कार (सफलता पर 1, अन्यथा 0) साफ़ हैं लेकिन धीमी गति से सीखने की ओर ले जाते हैं; घने पुरस्कार (उदाहरण के लिए, लक्ष्य से नकारात्मक दूरी) सीखने में मार्गदर्शन करते हैं लेकिन अप्रत्याशित तरीकों से खेला जा सकता है (इनाम हैकिंग)। विकल्पों में प्रदर्शनों से इनाम सीखना (आईआरएल, आरएलएचएफ), कार्य-विशिष्ट सिमुलेशन मेट्रिक्स और सीखे गए प्राथमिकता मॉडल शामिल हैं। नकल सीखना सीधे प्रदर्शनों से सीखकर इनाम डिजाइन समस्या को पूरी तरह से दूर कर देता है।
S
सिम-टू-रियल ट्रांसफर
सिम-टू-रियल ट्रांसफर एक रोबोट नीति को पूरी तरह या मुख्य रूप से सिमुलेशन में प्रशिक्षित करने और फिर इसे भौतिक रोबोट पर तैनात करने की प्रक्रिया है, इस लक्ष्य के साथ कि नीति अतिरिक्त वास्तविक दुनिया डेटा के बिना (या न्यूनतम के साथ) काम करती है। मुख्य चुनौती है वास्तविकता का अंतर - सिमुलेशन और वास्तविक दुनिया के बीच भौतिकी निष्ठा, दृश्य उपस्थिति, सेंसर शोर और अनमॉडल गतिशीलता में अंतर। मुख्य शमन तकनीकों में डोमेन रैंडमाइजेशन (प्रशिक्षण के दौरान सिमुलेशन मापदंडों को यादृच्छिक बनाना), सिस्टम पहचान (वास्तविक हार्डवेयर से मिलान करने के लिए सिमुलेशन को कैलिब्रेट करना), और वास्तविक डेटा की छोटी मात्रा पर अनुकूली फाइन-ट्यूनिंग शामिल हैं। देखें विस्तृत आलेख.
राज्य स्थान
स्टेट स्पेस कॉन्फ़िगरेशन का पूरा सेट है जिसमें एक रोबोट और उसका वातावरण हो सकता है। आरएल में, मार्कोव स्टेट भविष्य के पुरस्कारों और राज्य परिवर्तनों की भविष्यवाणी करने के लिए आवश्यक सभी जानकारी को एनकोड करता है - आदर्श रूप से दुनिया का पूरा विवरण। व्यवहार में, एजेंट के पास केवल आंशिक अवलोकनों (चित्र, संयुक्त कोण) तक पहुंच होती है जो स्थिति को पूरी तरह से कैप्चर नहीं कर सकते हैं (उदाहरण के लिए, अवरुद्ध वस्तुएं, अज्ञात भौतिकी पैरामीटर)। एक अवलोकन स्थान डिजाइन करना जो कम्प्यूटेशनल रूप से ट्रैक्टेबल रहते हुए मार्कोव राज्य का अच्छी तरह से अनुमान लगाता है, रोबोट लर्निंग सिस्टम डिजाइन में एक महत्वपूर्ण चुनौती है।
सर्जिकल रोबोटिक्स
सर्जिकल रोबोटिक्स चिकित्सा प्रक्रियाओं में रोबोट सिस्टम लागू करता है, सबसे प्रसिद्ध रूप से न्यूनतम इनवेसिव लेप्रोस्कोपिक सर्जरी के लिए इंटुएटिव सर्जिकल के दा विंची प्लेटफॉर्म के माध्यम से। सर्जिकल रोबोट मोशन स्केलिंग (बड़े ऑपरेटर आंदोलनों को उप-मिलीमीटर उपकरण गति में अनुवाद करना), कंपकंपी निस्पंदन और रोगी के अंदर उन्नत दृश्यता प्रदान करते हैं। उभरते शोध स्वायत्त सर्जिकल उप-कार्यों (सुटिंग, ऊतक प्रत्यावर्तन), एआई-सहायता मार्गदर्शन और कम-विलंबता 5 जी लिंक पर टेली-सर्जरी की खोज करते हैं। विनियामक अनुमोदन (एफडीए 510(के) या यूएस के लिए पीएमए) पर्याप्त सत्यापन बोझ जोड़ता है। सर्जिकल रोबोटिक्स के चौराहे पर बैठता है टेलीऑपरेशन, HRI, और संपर्क-समृद्ध हेरफेर.
T
कार्य-पैरामीटरीकृत शिक्षण
टास्क-पैरामीटरीकृत शिक्षण एक निश्चित विश्व फ्रेम के बजाय कई समन्वय फ्रेम या कार्य पैरामीटर (उदाहरण के लिए, ऑब्जेक्ट की मुद्रा, एक लक्ष्य स्थान, एक बाधा फ्रेम) के सापेक्ष प्रदर्शनों को एन्कोड करता है। क्रियान्वित करते समय, नीति पुन: प्रशिक्षण के बिना नई वस्तु और लक्ष्य कॉन्फ़िगरेशन के लिए स्वचालित रूप से अनुकूलित हो जाती है, क्योंकि इसने कार्य-प्रासंगिक संदर्भों के सापेक्ष गति सीख ली है। टास्क-पैरामीटराइज़्ड गॉसियन मिक्सचर मॉडल (टीपी-जीएमएम) और कर्नेलाइज़्ड मूवमेंट प्रिमिटिव शास्त्रीय कार्यान्वयन हैं। यह दृष्टिकोण संरचित पिक-एंड-प्लेस कार्यों के लिए मजबूत ज्यामितीय सामान्यीकरण प्रदान करता है, हालांकि इसके लिए कार्य फ़्रेम को रनटाइम पर पहचानने और ट्रैक करने की आवश्यकता होती है।
टेलीऑपरेशन
टेलीऑपरेशन एक मानव ऑपरेटर द्वारा रोबोट का रिमोट कंट्रोल है, जिसका उपयोग प्रत्यक्ष कार्य निष्पादन (सर्जिकल रोबोट, अंतरिक्ष रोबोटिक्स, बम निपटान) और उच्च गुणवत्ता वाले अनुकरण सीखने के प्रदर्शनों को इकट्ठा करने के लिए प्राथमिक विधि के रूप में किया जाता है। रोबोट सीखने में, एक सामान्य सेटअप एक लीडर-फॉलोअर आर्किटेक्चर का उपयोग करता है: ऑपरेटर एक हल्के लीडर आर्म को चलाता है और रोबोट (फॉलोअर) वास्तविक समय में लीडर को ट्रैक करता है। वीआर-आधारित टेलीऑपरेशन सिस्टम (हैंड ट्रैकिंग या कंट्रोलर का उपयोग करके) तेजी से लोकप्रिय हो रहे हैं क्योंकि वे अधिक एर्गोनोमिक हैं और उच्च डेटा थ्रूपुट की अनुमति देते हैं। एसवीआरसी पेशेवर टेलीऑपरेशन प्रदान करता है डेटा संग्रह सेवाएँ एंटरप्राइज़ रोबोट सीखने वाली टीमों के लिए।
प्रक्षेपवक्र
प्रक्षेपवक्र रोबोट स्थितियों (संयुक्त कोण या कार्टेशियन पोज़) का एक समय-पैरामीटरयुक्त अनुक्रम है जो बताता है कि रोबोट प्रारंभिक कॉन्फ़िगरेशन से लक्ष्य तक कैसे चलता है। प्रक्षेपवक्र गति योजनाकारों द्वारा उत्पन्न किए जा सकते हैं (टकराव-मुक्त पथ की योजना बनाना और फिर सुचारू निष्पादन के लिए इसे समय-पैरामीटराइज़ करना), टेलीऑपरेशन रिकॉर्डिंग (एक निश्चित आवृत्ति पर ऑपरेटर की गति को कैप्चर करना), या एक तंत्रिका नीति द्वारा सीधे भविष्यवाणी की जा सकती है। भौतिक रोबोट सुरक्षा के लिए प्रक्षेपवक्र की चिकनाई और वेग निरंतरता महत्वपूर्ण हैं - अचानक रुकावटें यांत्रिक तनाव का कारण बनती हैं और सुरक्षा रुकावटों को ट्रिगर कर सकती हैं। प्रक्षेपवक्र अभ्यावेदन में स्प्लिन, डायनेमिक मूवमेंट प्रिमिटिव (डीएमपी), और असतत वेपॉइंट अनुक्रम शामिल हैं।
स्थानांतरण सीखना
रोबोटिक्स में ट्रांसफर लर्निंग में एक डोमेन पर पहले से प्रशिक्षित मॉडल (उदाहरण के लिए, इंटरनेट विज़न-भाषा डेटा, सिमुलेशन, या एक अलग रोबोट) लेना और इसे सीमित अतिरिक्त डेटा के साथ लक्ष्य कार्य या रोबोट में अनुकूलित करना शामिल है। रोबोट प्रदर्शन डेटा पर पूर्व-प्रशिक्षित रीढ़ की अंतिम परतों को ठीक करना सबसे आम दृष्टिकोण है; पर्याप्त रोबोट डेटा उपलब्ध होने पर सभी भारों को पूर्ण रूप से ठीक करने का उपयोग किया जाता है। ट्रांसफर लर्निंग वह तंत्र है जो बनाता है नींव मॉडल रोबोटिक्स के लिए व्यावहारिक - अकेले रोबोट डेटा पर स्क्रैच से प्रशिक्षण के विकल्प के लिए लाखों प्रदर्शनों की आवश्यकता होगी। यह भी देखें पूर्व प्रशिक्षण, सिम-टू-रियल स्थानांतरण.
U
URDF (एकीकृत रोबोट विवरण प्रारूप)
यूआरडीएफ एक एक्सएमएल-आधारित फ़ाइल प्रारूप है जो रोबोट की गतिक और गतिशील गुणों का वर्णन करता है: लिंक (द्रव्यमान, जड़ता और दृश्य/टकराव जाल के साथ कठोर शरीर) और जोड़ (लिंक के बीच कनेक्शन, प्रकार, अक्ष, सीमा और डंपिंग पैरामीटर के साथ)। यूआरडीएफ आरओएस में मानक रोबोट विवरण प्रारूप है और सभी प्रमुख सिमुलेशन प्लेटफार्मों (आइजैक सिम, म्यूजोको, गज़ेबो, पायबुलेट) द्वारा समर्थित है। यह रोबोट की गतिकी को MoveIt जैसे गति योजनाकारों में लोड करने, RViz में रोबोट की कल्पना करने और भौतिकी सिमुलेशन मॉडल को त्वरित करने में सक्षम बनाता है। XACRO (XML मैक्रो लैंग्वेज) का उपयोग आमतौर पर जटिल रोबोटों के लिए URDF फ़ाइलों को पैरामीटराइज़ और मॉड्यूलराइज़ करने के लिए किया जाता है। ओपनआर्म और अधिकांश एसवीआरसी हार्डवेयर में सार्वजनिक रूप से उपलब्ध यूआरडीएफ मॉडल हैं।
V
VLA (दृष्टि-भाषा-क्रिया मॉडल)
विज़न-लैंग्वेज-एक्शन मॉडल एक तंत्रिका नेटवर्क है जो एक्शन आउटपुट उत्पन्न करने के लिए दृश्य अवलोकन (आरजीबी छवियां), प्राकृतिक भाषा निर्देश और रोबोट प्रोप्रियोसेप्शन को संयुक्त रूप से संसाधित करता है। वीएलए एक एक्शन हेड जोड़कर बड़े विज़न-लैंग्वेज मॉडल (वीएलएम जैसे कि पीएएलएम-ई, एलएलएवीए, या जेमिनी) का विस्तार करते हैं - मॉडल को उसकी भाषा भविष्यवाणियों के साथ-साथ रोबोट संयुक्त स्थिति या अंत-प्रभावक डेल्टा को आउटपुट करने के लिए प्रशिक्षित करते हैं। उल्लेखनीय वीएलए में आरटी-2 (पाठ टोकन के रूप में क्रियाओं को टोकन करना और वीएलएम को फाइन-ट्यून करना), ओपनवीएलए (ओपन-सोर्स, 7बी पैरामीटर, ओपन एक्स-एम्बोडिमेंट पर प्रशिक्षित), और पीआई0 (भौतिक इंटेलिजेंस का प्रवाह-मिलान वीएलए) शामिल हैं। देखें वीएलए और वीएलएम लेख और यह एसवीआरसी मॉडल कैटलॉग.
वाइपरएक्स
वाइपरएक्स ट्रॉसेन रोबोटिक्स द्वारा निर्मित 6-डीओएफ रोबोट हथियारों की एक श्रृंखला है, जो अपनी कम लागत, आरओएस समर्थन और डायनामिक्सेल सर्वो पारिस्थितिकी तंत्र के साथ संगतता के कारण अकादमिक रोबोट सीखने के अनुसंधान में व्यापक रूप से उपयोग किया जाता है। ViperX 300 (300 मिमी पहुंच के साथ) और ViperX 300-S अनुकरण शिक्षण सेटअप में पाए जाने वाले सबसे आम अनुसंधान हथियारों में से हैं और मूल में अनुयायी हथियार हैं ALOHA प्रणाली। ViperX हथियारों में औद्योगिक रोबोट की तुलना में मामूली पेलोड (~ 750 ग्राम) और सटीकता होती है, लेकिन हेरफेर अनुसंधान के लिए एक सुलभ प्रवेश बिंदु प्रदान करता है। एसवीआरसी ब्राउज़ करें लौह वस्तुओं की दुकान उपलब्धता के लिए.
दृश्य सर्वोइंग
विज़ुअल सर्वोइंग एक रोबोट को छवि स्थान (छवि-आधारित विज़ुअल सर्वोइंग, आईबीवीएस) या छवियों से अनुमानित 3 डी स्थान (स्थिति-आधारित विज़ुअल सर्वोइंग, पीबीवीएस) में परिभाषित लक्ष्य की ओर मार्गदर्शन करने के लिए एक बंद-लूप नियंत्रक में कैमरा फीडबैक का उपयोग करता है। आईबीवीएस में, नियंत्रक स्पष्ट रूप से 3डी पोज़ की गणना किए बिना, पता लगाए गए छवि सुविधाओं (मुख्य बिंदु, ऑब्जेक्ट बाउंडिंग बॉक्स) और छवि विमान में उनकी वांछित स्थिति के बीच त्रुटि को कम करता है। विज़ुअल सर्वोइंग आकर्षक है क्योंकि यह सीधे अंशांकन त्रुटियों और कैमरा-रोबोट मिसलिग्न्मेंट की भरपाई करता है। आधुनिक डीप लर्निंग वेरिएंट न्यूरल नेटवर्क को कच्ची छवियों से सीधे सर्विंग वेलोसिटी कमांड आउटपुट करने के लिए प्रशिक्षित करते हैं, जिससे नई वस्तुओं के लिए मजबूत संरेखण सक्षम होता है।
W
मार्गबिंदु
वेपॉइंट एक मध्यवर्ती विन्यास (संयुक्त कोण या कार्टेशियन मुद्रा) है जिससे रोबोट के प्रक्षेप पथ को शुरू से लक्ष्य तक के रास्ते से गुजरना होगा। वेप्वाइंट प्रोग्रामर और योजनाकारों को विशिष्ट पोज़ के माध्यम से रोबोट के पथ का मार्गदर्शन करने की अनुमति देते हैं - उदाहरण के लिए, किसी बाधा से बचने के लिए, सुरक्षित दिशा से किसी वस्तु तक पहुंचना, या मल्टी-स्टेप असेंबली प्रक्रिया के माध्यम से अनुक्रम करना। रोबोट सीखने में, उच्च-स्तरीय नीतियां कभी-कभी आउटपुट वेपॉइंट्स देती हैं जिन्हें निचले स्तर का मोशन प्लानर सुचारु संयुक्त प्रक्षेप पथों में प्रक्षेपित करता है, जो सीखी गई नीतियों के सामान्यीकरण लाभों को शास्त्रीय योजना की सुरक्षा गारंटी के साथ जोड़ता है।
पूरे शरीर पर नियंत्रण (डब्ल्यूबीसी)
पूरे शरीर का नियंत्रण कई प्रतिस्पर्धी उद्देश्यों को पूरा करने के लिए एक पैर वाले या ह्यूमनॉइड रोबोट के सभी जोड़ों को एक साथ समन्वयित करता है - संतुलन बनाए रखना, अंतिम-प्रभावक लक्ष्यों पर नज़र रखना, संयुक्त सीमाओं से बचना और संपर्क बलों का प्रबंधन करना - एक वास्तविक समय बाधित अनुकूलन समस्या (आमतौर पर एक क्यूपी) के रूप में हल किया जाता है। WBC ह्यूमनॉइड्स और लेग्ड मैनिपुलेटर्स के लिए आवश्यक है क्योंकि आधार स्थिर नहीं है: हाथ की गति द्रव्यमान के केंद्र को स्थानांतरित कर देती है और इसकी भरपाई पैर और धड़ समायोजन द्वारा की जानी चाहिए। ड्रेक, पिनोचियो और OCS2 जैसे WBC फ्रेमवर्क का उपयोग आमतौर पर ह्यूमनॉइड अनुसंधान में किया जाता है। मोबाइल ALOHA प्लेटफ़ॉर्म और बोस्टन डायनेमिक्स एटलस लोको-हेरफेर के लिए पूरे-बॉडी नियंत्रकों पर निर्भर हैं। देखना डब्ल्यूबीसी लेख.
कार्यस्थान
एक रोबोट का कार्यक्षेत्र उन सभी स्थितियों (और अभिविन्यासों) का समूह है, जिन तक अंतिम-प्रभावक रोबोट की गतिक संरचना और संयुक्त सीमाओं को देखते हुए पहुंच सकता है। पहुंच योग्य कार्यक्षेत्र वह सभी स्थितियाँ हैं जहाँ अंतिम-प्रभावक कम से कम एक अभिविन्यास में पहुँच सकता है; निपुण कार्यक्षेत्र प्रत्येक अभिविन्यास में पहुंच योग्य छोटा उपसमूह है - मनमाने ढंग से दृष्टिकोण कोण की आवश्यकता वाले हेरफेर कार्यों के लिए सबसे उपयोगी क्षेत्र। कार्यक्षेत्र विश्लेषण सेल लेआउट (रोबोट और भागों को कितनी दूर होना चाहिए), रोबोट चयन (कार्य लेआउट तक पहुंच का मिलान), और गति योजना (कार्यक्षेत्र में विलक्षणता-मुक्त पथों की पहचान करना) को सूचित करता है।
Z
ज़ार (डेटा प्रारूप)
ज़ार एन-आयामी सरणियों को खंडित, संपीड़ित रूप में संग्रहीत करने के लिए एक ओपन-सोर्स प्रारूप है, जिसे क्लाउड-नेटिव और समानांतर I/O वर्कलोड के लिए डिज़ाइन किया गया है। रोबोटिक्स में, ज़ार का उपयोग बड़े रोबोट प्रदर्शन डेटासेट (छवियां, संयुक्त स्थिति, क्रियाएं) को ऐसे प्रारूप में संग्रहीत करने के लिए किया जाता है जिसे संपूर्ण फ़ाइलों को डाउनलोड किए बिना ऑब्जेक्ट स्टोरेज (एस 3, जीसीएस) से कुशलतापूर्वक पढ़ा जा सकता है। भिन्न HDF5ज़ार समवर्ती लेखन का समर्थन करता है, जो इसे वितरित डेटा संग्रह पाइपलाइनों के लिए उपयुक्त बनाता है। Zarr v3 ने प्रारूप को मानकीकृत किया और शार्डिंग (कई छोटे टुकड़ों को कम बड़ी फ़ाइलों में संयोजित करना) के लिए समर्थन जोड़ा, जिससे क्लाउड स्टोरेज दक्षता में सुधार होता है। लेरोबोट और कई स्वायत्त वाहन डेटासेट जैसी परियोजनाओं ने बड़े पैमाने पर डेटासेट होस्टिंग के लिए ज़ार को अपनाया है।
शून्य-शॉट सामान्यीकरण
शून्य-शॉट सामान्यीकरण एक प्रशिक्षित नीति की उन कार्यों, वस्तुओं या वातावरणों पर सफलतापूर्वक प्रदर्शन करने की क्षमता है, जिन्हें उसने प्रशिक्षण के दौरान बिना किसी अतिरिक्त फाइन-ट्यूनिंग या प्रदर्शन के स्पष्ट रूप से कभी नहीं देखा है। ट्रू जीरो-शॉट ट्रांसफर रोबोट फाउंडेशन मॉडल का एक प्रमुख लक्ष्य है - एक नीति जो उपन्यास घरेलू वस्तुओं या नई भाषा निर्देशों के लिए जीरो-शॉट को सामान्य बनाती है, डेटा संग्रह के बोझ को नाटकीय रूप से कम कर देगी। वर्तमान वीएलए मॉडल आशाजनक शून्य-शॉट भाषा सामान्यीकरण (ज्ञात कार्य प्रकारों के उपन्यास वाक्यांशों को समझना) दिखाते हैं लेकिन फिर भी वास्तव में उपन्यास ऑब्जेक्ट श्रेणियों या पूरी तरह से नए हेरफेर कौशल के साथ संघर्ष करते हैं। शून्य-शॉट प्रदर्शन में सुधार करना रोबोट डेटासेट और मॉडल आकार को स्केल करने के लिए केंद्रीय प्रेरणा है। यह भी देखें शून्य-शॉट स्थानांतरण आलेख.
कोई भी शब्द आपकी खोज से मेल नहीं खाता
छोटा शब्द आज़माएँ या वर्तनी जाँचें। खोज साफ़ होने पर सभी 65 शब्द ऊपर सूचीबद्ध हो जाते हैं।