रोबोटिक्स शब्दावली

नकल सीखने, वीएलए मॉडल, टेलीऑपरेशन, किनेमेटिक्स और सन्निहित एआई को कवर करने वाले 60+ शब्द - शोधकर्ताओं, इंजीनियरों और उद्यम टीमों के लिए लिखे गए हैं।

65 शर्तें A-Z संगठित अद्यतन 2026

A

ACT (ट्रांसफॉर्मर्स के साथ एक्शन चंकिंग)

ACT टोनी झाओ एट अल द्वारा प्रस्तुत एक अनुकरण शिक्षण एल्गोरिदम है। (2023) जो प्रत्येक समय-चरण पर एक कार्रवाई के बजाय भविष्य की कार्रवाइयों की एक निश्चित-लंबाई वाले हिस्से की भविष्यवाणी करने के लिए एक ट्रांसफार्मर-आधारित नीति को प्रशिक्षित करता है। एक ही बार में क्रिया अनुक्रमों की भविष्यवाणी करके, ACT चरण-दर-चरण व्यवहार क्लोनिंग की विशिष्ट यौगिक त्रुटि को कम करता है और अस्थायी रूप से सुसंगत गति उत्पन्न करता है। आर्किटेक्चर एक सीवीएई-शैली एनकोडर के माध्यम से आरजीबी अवलोकनों और प्रोप्रियोसेप्टिव स्थिति को एनकोड करता है और एक ट्रांसफार्मर का उपयोग करके एक्शन चंक्स को डीकोड करता है। पर ACT का प्रदर्शन किया गया ALOHA द्वि-मैन्युअल प्लेटफ़ॉर्म, बैग खोलने और अंडे स्थानांतरित करने जैसे कार्यों पर मजबूत प्रदर्शन प्राप्त करना। यह भी देखें: एक्शन चुंकिंग (गहरा गोता).

नीतिट्रांसफार्मरनकल सीखना

एक्शन स्पेस

एक्शन स्पेस आउटपुट का पूरा सेट है जो एक रोबोट नीति प्रत्येक टाइमस्टेप पर उत्पन्न कर सकती है। रोबोट भुजा के लिए इसमें आम तौर पर संयुक्त स्थिति, संयुक्त वेग, या अंत-प्रभावक पोज़ (कार्टेशियन स्थिति + क्वाटरनियन) शामिल होते हैं; मोबाइल रोबोट के लिए इसमें व्हील वेग या स्टीयरिंग कमांड शामिल हैं। क्रिया स्थानों को या तो असतत (क्रियाओं का एक सीमित मेनू) या निरंतर (वास्तविक-मूल्यवान वैक्टर) के रूप में वर्णित किया गया है। एक्शन स्पेस की आयामीता और प्रतिनिधित्व दृढ़ता से प्रभावित करता है कि स्थिर नीति को प्रशिक्षित करना कितना आसान है: अंत-प्रभावक डेल्टा-पोज़ स्थान अक्सर अनुकरण सीखने के लिए आसान होते हैं, जबकि संयुक्त-टोक़ स्थान बेहतर बल नियंत्रण देते हैं लेकिन अधिक सावधानीपूर्वक सामान्यीकरण की आवश्यकता होती है।

नीतिनियंत्रण

ALOHA (द्विमापीय टेलीऑपरेशन के लिए एक कम लागत वाला ओपन-सोर्स हार्डवेयर सिस्टम)

ALOHA स्टैनफोर्ड में विकसित एक ओपन-सोर्स द्वि-मैनुअल टेलीऑपरेशन सिस्टम है, जिसमें दो ViperX 300 रोबोट हथियार और दो WidowX 250 लीडर हथियार एक एकीकृत कलाई कैमरे के साथ एक साझा फ्रेम पर लगाए गए हैं। इसे कम लागत पर उच्च गुणवत्ता वाले प्रदर्शन डेटा एकत्र करने के लिए डिज़ाइन किया गया था - मूल निर्माण $20,000 से कम है - और इसे रेखांकित करता है ACT नीति प्रयोग. मोबाइल ALOHA एक व्हील्ड बेस के साथ प्लेटफॉर्म का विस्तार करता है, जिससे खाना पकाने और सफाई जैसे पूरे शरीर के लोको-हेरफेर कार्यों को सक्षम किया जा सकता है। ALOHA डेटासेट सार्वजनिक रूप से उपलब्ध हैं और द्वि-मैन्युअल हेरफेर अनुसंधान के लिए एक वास्तविक बेंचमार्क बन गए हैं। यहां और जानें एसवीआरसी डेटा सेवाएँ.

हार्डवेयरटेलीऑपरेशनद्विहस्तक

AMR (स्वायत्त मोबाइल रोबोट)

एक स्वायत्त मोबाइल रोबोट SLAM, पथ-योजना और बाधा-बचाव एल्गोरिदम के साथ संयुक्त ऑनबोर्ड सेंसर (LiDAR, कैमरे, IMU) का उपयोग करके, निश्चित ट्रैक या मानव मार्गदर्शन के बिना अपने वातावरण में नेविगेट करता है। एजीवी (स्वचालित निर्देशित वाहन) के विपरीत, जो चुंबकीय पट्टियों का पालन करते हैं, एएमआर वास्तविक समय में एक मानचित्र बनाते हैं और अपडेट करते हैं और लोगों और वस्तुओं के चारों ओर गतिशील रूप से पुन: रूट करते हैं। बोस्टन डायनेमिक्स, लोकस रोबोटिक्स और 6 रिवर सिस्टम्स जैसी कंपनियों के आधुनिक वेयरहाउस एएमआर ने लॉजिस्टिक्स में व्यापक रूप से अपनाने को प्रेरित किया है। एएमआर को बनाने के लिए अक्सर मैनिपुलेटर हथियारों के साथ जोड़ा जाता है मोबाइल मैनिपुलेटर्स बड़े पैमाने पर चुनने और रखने में सक्षम।

मोबाइल रोबोटिक्समार्गदर्शनSLAM

B

व्यवहारिक क्लोनिंग (बीसी)

व्यवहारिक क्लोनिंग इसका सबसे सरल रूप है नकल सीखना: एक पर्यवेक्षित प्रतिगमन समस्या जहां नीति को प्रत्येक अवलोकित स्थिति में नीति के आउटपुट और विशेषज्ञ की कार्रवाई के बीच पूर्वानुमान त्रुटि को कम करके विशेषज्ञ प्रदर्शनों की नकल करने के लिए प्रशिक्षित किया जाता है। बीसी को लागू करना आसान है और डेटा के साथ इसका माप अच्छा है, लेकिन इसमें दिक्कतें आती हैं वितरणात्मक बदलाव - क्योंकि इसे कभी भी सुधारात्मक प्रतिक्रिया नहीं मिलती है, छोटी त्रुटियों के कारण रोबोट उन राज्यों का दौरा करता है जो प्रशिक्षण डेटा में मौजूद नहीं हैं, जो कार्य विफलता में बदल सकता है। डीएगर (डेटासेट एग्रीगेशन) और गेल जैसी तकनीकों को विशेष रूप से बीसी की कंपाउंडिंग-त्रुटि समस्या के समाधान के लिए विकसित किया गया था।

नकल सीखनापर्यवेक्षित अध्ययन

द्वि-मैन्युअल हेरफेर

द्वि-मैन्युअल हेरफेर उन कार्यों को संदर्भित करता है जिनमें समन्वय में काम करने वाले दो रोबोट हथियारों की आवश्यकता होती है, जैसे कि मनुष्य एक साथ दोनों हाथों का उपयोग कैसे करते हैं। उदाहरणों में कपड़े धोना, गांठें बांधना, जार खोलना और भागों को जोड़ना शामिल है जिन्हें एक हाथ से स्थिर किया जाना चाहिए जबकि दूसरा अच्छा संचालन करता है। एकल-हाथ वाले कार्यों की तुलना में द्वि-हाथ वाले कार्य काफी कठिन होते हैं क्योंकि नीति को हथियारों के बीच भौतिक बाधाओं का सम्मान करते हुए दो उच्च-आयामी कार्रवाई धाराओं का समन्वय करना चाहिए। ALOHA मंच का निर्माण द्वि-मैनुअल प्रदर्शनों को एकत्रित करने के उद्देश्य से किया गया था, और ACT द्वि-मैन्युअल नियंत्रण के लिए अग्रणी नीतियों में से एक है।

चालाकीहार्डवेयर

BOM (सामग्री का बिल)

रोबोटिक्स हार्डवेयर में, बीओएम एक सिस्टम बनाने के लिए आवश्यक प्रत्येक घटक, सबअसेंबली, भाग संख्या, मात्रा और इकाई लागत को सूचीबद्ध करता है। सटीक बीओएम उत्पादन स्केलअप, खरीद, आपूर्ति-श्रृंखला जोखिम प्रबंधन और लागत मॉडलिंग के लिए महत्वपूर्ण हैं। ओपन-सोर्स रोबोट प्लेटफ़ॉर्म जैसे ओपनआर्म या एएलओएचए के लिए, एक प्रकाशित बीओएम बाहरी टीमों को मालिकाना निर्भरता के बिना हार्डवेयर को पुन: पेश करने की अनुमति देता है। रोबोट परिनियोजन का मूल्यांकन करने वाली एंटरप्राइज़ टीमें अक्सर पट्टे या रोबोट-ए-सर्विस विकल्पों के विरुद्ध स्वामित्व की कुल लागत को बेंचमार्क करने के लिए बीओएम का अनुरोध करती हैं - तुलना करें एसवीआरसी पट्टे के विकल्प.

हार्डवेयरउत्पादन

C

कार्टेशियन स्पेस (कार्य स्थान)

कार्टेशियन स्पेस (जिसे टास्क स्पेस या ऑपरेशनल स्पेस भी कहा जाता है) एक दुनिया या बेस फ्रेम के सापेक्ष उसके अंतिम-प्रभावक की स्थिति और अभिविन्यास के संदर्भ में एक रोबोट के कॉन्फ़िगरेशन का वर्णन करता है, जिसे आमतौर पर (x, y, z, रोल, पिच, यॉ) या (x, y, z, quatermion) के रूप में व्यक्त किया जाता है। कार्टेशियन स्पेस में रोबोट को नियंत्रित करना अक्सर नकल सीखने के लिए अधिक सहज होता है क्योंकि मानव प्रदर्शन स्वाभाविक रूप से अंत-प्रभावक प्रक्षेपवक्र को मैप करता है। से परिवर्तन संयुक्त स्थान कार्टेशियन स्पेस को कहा जाता है आगे की गतिकी; उलटा है व्युत्क्रम गतिकी.

गतिकीनियंत्रण

सह-प्रशिक्षण

रोबोटिक्स में सह-प्रशिक्षण से तात्पर्य कई रोबोट अवतारों, कार्यों या वातावरणों से डेटा पर एक ही नीति को एक साथ प्रशिक्षित करना है। परिकल्पना यह है कि विविध डेटा स्रोत नीति को मजबूत दृश्य और व्यवहारिक प्रतिनिधित्व सिखाते हैं जो नई सेटिंग्स में बेहतर स्थानांतरित होते हैं। एक्स-एम्बोडिमेंट खोलें डेटासेट को विशेष रूप से 22 से अधिक रोबोट प्रकारों में सह-प्रशिक्षण सक्षम करने के लिए इकट्ठा किया गया था। RT-2 और OpenVLA जैसे बड़े फाउंडेशन मॉडल बूटस्ट्रैप सामान्यीकरण के लिए रोबोट प्रदर्शन डेटा के साथ-साथ इंटरनेट-स्केल विज़न-भाषा डेटा के साथ सह-प्रशिक्षण पर भरोसा करते हैं।

प्रशिक्षणसामान्यकरणफाउंडेशन मॉडल

संपर्क-समृद्ध हेरफेर

संपर्क-समृद्ध हेरफेर कार्य वे होते हैं जहां कार्य की सफलता के लिए रोबोट और पर्यावरण के बीच उद्देश्यपूर्ण, निरंतर संपर्क आवश्यक होता है - जैसे कि खूंटी-इन-होल प्रविष्टि, पेंच बोल्ट, कपड़े को मोड़ना, या आटा गूंधना। ये कार्य चुनौतीपूर्ण हैं क्योंकि छोटी स्थितीय त्रुटियां बड़े बल स्पाइक्स उत्पन्न करती हैं, और कठोर स्थिति नियंत्रक भागों को नुकसान पहुंचा सकते हैं या रोबोट को अस्थिर कर सकते हैं। सफल दृष्टिकोण अनुपालन नियंत्रण (प्रतिबाधा या प्रवेश नियंत्रण) को जोड़ते हैं, बल-टोक़ संवेदन, और सीखी गई नीतियां जो संपर्क का अनुमान लगाती हैं और उसका फायदा उठाती हैं।

चालाकीनियंत्रणबल संवेदन

सतत नियंत्रण

निरंतर नियंत्रण उन रोबोट नीतियों को संदर्भित करता है जो क्रियाओं के अलग-अलग सेट से चयन करने के बजाय वास्तविक-मूल्य वाले एक्शन वैक्टर (जैसे, संयुक्त टॉर्क, वेग, या कार्टेशियन डेल्टा) का उत्पादन करते हैं। अधिकांश भौतिक रोबोट हेरफेर कार्यों के लिए निरंतर नियंत्रण की आवश्यकता होती है क्योंकि सुचारू, सटीक गति को एक सीमित क्रिया मेनू द्वारा पर्याप्त रूप से प्रस्तुत नहीं किया जा सकता है। निरंतर नियंत्रण के लिए मानक डीप आरएल एल्गोरिदम में डीडीपीजी, टीडी3 और एसएसी शामिल हैं; अनुकरण सीखने, व्यवहारिक क्लोनिंग और के लिए प्रसार नीति आमतौर पर निरंतर क्रिया वाले स्थानों में उपयोग किया जाता है।

नियंत्रणसुदृढीकरण सीखना

D

डेटा संवर्धन (रोबोटिक्स के लिए)

रोबोट लर्निंग में डेटा संवर्द्धन अतिरिक्त प्रदर्शन एकत्र किए बिना नीति की मजबूती में सुधार के लिए प्रशिक्षण टिप्पणियों में यादृच्छिक परिवर्तन लागू करता है। सामान्य छवि संवर्द्धन में यादृच्छिक क्रॉपिंग, रंग घबराहट, गाऊसी धुंधलापन और कटआउट शामिल हैं। प्रशिक्षण वातावरण में विशिष्ट दृश्य सुविधाओं पर ओवरफिटिंग को रोकने के लिए अधिक परिष्कृत संवर्द्धन विचलित करने वाली पृष्ठभूमि को ओवरले करते हैं, प्रकाश की स्थिति को बदलते हैं, या सेंसर शोर को इंजेक्ट करते हैं। कुछ दृष्टिकोण क्रियाओं को भी बढ़ाते हैं - उदाहरण के लिए, नीति को गड़बड़ी से उबरने के लिए सिखाने के लिए संयुक्त प्रक्षेप पथों में शोर जोड़ना। जब प्रशिक्षण डेटा महंगा हो तो संवर्द्धन विशेष रूप से महत्वपूर्ण होता है (प्रत्येक प्रदर्शन के लिए मानव ऑपरेटर के समय की आवश्यकता होती है)।

प्रशिक्षणमजबूतीडेटा

स्वतंत्रता की कोटियां (डीओएफ)

स्वतंत्रता की डिग्री एक यांत्रिक प्रणाली के विन्यास को निर्दिष्ट करने के लिए आवश्यक स्वतंत्र मापदंडों की संख्या का वर्णन करती है। छह उल्टे जोड़ों वाले एक रोबोट हाथ में 6 डीओएफ होते हैं - जो अपने अंतिम-प्रभावक को उसके पहुंच योग्य कार्यक्षेत्र (एकवचन को छोड़कर) के भीतर मनमाने ढंग से स्थित करने और उन्मुख करने के लिए पर्याप्त है। 7-डीओएफ भुजा एक अनावश्यक जोड़ जोड़ती है जो बाधा से बचने या आराम की स्थिति के लिए शून्य-स्थान अनुकूलन की अनुमति देती है। मानव भुजाओं में कंधे-कोहनी-कलाई की श्रृंखला में लगभग 7 डीओएफ होते हैं, जिससे 7-डीओएफ रोबोट मानवरूपी हेरफेर के लिए प्राकृतिक विकल्प बन जाते हैं। मोबाइल बेस 2-3 डीओएफ जोड़ते हैं; पूर्ण ह्यूमनॉइड्स 30 डीओएफ से अधिक हैं।

गतिकीहार्डवेयर

प्रदर्शन

एक प्रदर्शन (नकल सीखने के संदर्भ में प्रक्षेपवक्र या प्रकरण भी कहा जाता है) एक मानव या विशेषज्ञ नियंत्रक द्वारा प्रदान किए गए अवलोकनों और कार्यों का एक रिकॉर्ड किया गया अनुक्रम है जो बताता है कि किसी कार्य को कैसे करना है। प्रदर्शन व्यवहार क्लोनिंग और अन्य अनुकरण शिक्षण एल्गोरिदम के लिए प्राथमिक डेटा स्रोत हैं। इन्हें के माध्यम से एकत्र किया जा सकता है टेलीऑपरेशन, गतिज शिक्षण, या मोशन कैप्चर। डेटा गुणवत्ता - सुचारू गति, निरंतर कार्य निष्पादन, कार्य की स्थिति की पर्याप्त कवरेज - डाउनस्ट्रीम नीति प्रदर्शन के लिए मात्रा जितनी ही मायने रखती है। एसवीआरसी हमारे माध्यम से उत्पादन-गुणवत्ता वाले रोबोट प्रदर्शन एकत्र करता है डेटा सेवाएँ.

डेटानकल सीखना

प्रसार नीति

प्रसार नीति, ची एट अल द्वारा प्रस्तुत की गई। (2023), रोबोट एक्शन जेनरेशन को एक डीनोइजिंग प्रसार प्रक्रिया के रूप में तैयार करता है - छवि निर्माण में उपयोग किए जाने वाले जेनरेटिव मॉडल का समान वर्ग। अनुमान के समय, नीति एक सीखे हुए स्कोर नेटवर्क (आमतौर पर एक सीएनएन या ट्रांसफार्मर) का उपयोग करके वर्तमान अवलोकन पर वातानुकूलित क्रियाओं के अनुक्रम में गॉसियन शोर के नमूने को पुनरावृत्त रूप से परिष्कृत करती है। नियतात्मक व्यवहार क्लोनिंग की तुलना में, प्रसार नीति स्वाभाविक रूप से प्रतिनिधित्व करती है बहुविध कार्रवाई वितरण (किसी कार्य को करने के कई वैध तरीके) और संपर्क-समृद्ध हेरफेर बेंचमार्क पर अत्याधुनिक परिणाम प्राप्त करते हैं। देखें विस्तृत आलेख.

नीतिजनरेटिव मॉडलनकल सीखना

निपुण हेरफेर

निपुण हेरफेर से तात्पर्य सूक्ष्म, बहु-उंगलियों वाले हेरफेर कार्यों से है जो रोबोटिक हाथ की पूर्ण गतिज और संवेदी क्षमताओं का उपयोग करते हैं - हाथ में पुनः पकड़ना, उंगलियों पर वस्तुओं को घुमाना, कार्ड डीलिंग, सर्जिकल टांके लगाना और इसी तरह के कार्य। निपुणता के लिए उच्च की आवश्यकता होती है-DOF अंत-प्रभावक (5+ उंगलियां, प्रत्येक 3+ जोड़ों के साथ), घनी स्पर्श संवेदना, और जटिल संपर्क ज्यामिति के बारे में तर्क करने में सक्षम नीतियां। सिमुलेशन में प्रशिक्षित सुदृढीकरण सीखने (उदाहरण के लिए, ओपनएआई के डैक्टाइल) और हाल की प्रसार-आधारित नीतियों ने सीमा को आगे बढ़ाया है, लेकिन मानव-स्तर की विश्वसनीयता में कुशल हेरफेर एक खुली शोध समस्या बनी हुई है।

चालाकीहार्डवेयररिसर्च फ्रंटियर

E

सन्निहित एआई

सन्निहित एआई कृत्रिम बुद्धिमत्ता प्रणालियों को संदर्भित करता है जो अलगाव में पाठ या छवियों पर पूरी तरह से काम करने के बजाय वास्तविक दुनिया में स्थित एक भौतिक शरीर के माध्यम से अनुभव और कार्य करता है। अवतार परिकल्पना मानती है कि सच्ची बुद्धिमत्ता के लिए सेंसरिमोटर ग्राउंडिंग की आवश्यकता होती है - बातचीत के माध्यम से सीखना, न कि केवल स्थिर डेटासेट पर पैटर्न मिलान। व्यवहार में, सन्निहित एआई अनुसंधान में रोबोट सीखना शामिल है, वीएलए मॉडल, सिम-टू-रियल ट्रांसफर, और फिजिकल फाउंडेशन मॉडल। Google DeepMind (RT श्रृंखला), फिजिकल इंटेलिजेंस (pi0), और NVIDIA (GR00T) जैसी कंपनियां प्राथमिक औद्योगिक चालक हैं। एसवीआरसी का अपना डेटा प्लेटफ़ॉर्म सन्निहित AI डेटा वर्कफ़्लो के लिए बनाया गया है।

फाउंडेशन मॉडलभौतिक ए.आई

अंत-प्रभावक

एंड-इफ़ेक्टर रोबोट बांह के दूरस्थ सिरे पर स्थित उपकरण है जो सीधे पर्यावरण के साथ संपर्क करता है। यह एक समानांतर-जबड़ा ग्रिपर, एक सक्शन कप, एक बहु-उंगली वाला हाथ, एक वेल्डिंग टॉर्च, एक पेंट नोजल, या कोई कार्य-विशिष्ट उपकरण हो सकता है। अंतिम-प्रभावक की मुद्रा - अंतरिक्ष में इसकी स्थिति और अभिविन्यास - अधिकांश हेरफेर नीतियों के लिए प्राथमिक नियंत्रण आउटपुट है। टूल सेंटर पॉइंट (टीसीपी) कार्टेशियन नियंत्रण के लिए उपयोग किए जाने वाले अंतिम-प्रभावक पर संदर्भ बिंदु है। सही एंड-इफ़ेक्टर चुनना एक महत्वपूर्ण परिनियोजन निर्णय है: एक ऑब्जेक्ट क्लास (उदाहरण के लिए, कठोर बक्से) के लिए अनुकूलित ग्रिपर नरम या अनियमित वस्तुओं पर विफल हो सकते हैं। ब्राउज़ एसवीआरसी हार्डवेयर विकल्प.

हार्डवेयरचालाकी

एपिसोड

एक एपिसोड किसी कार्य पर एक एकल, पूर्ण प्रयास है - प्रारंभिक अवस्था से लेकर कार्य की सफलता, विफलता या समय समाप्ति तक। सुदृढीकरण सीखने में, एजेंट एक एपिसोड के लिए पर्यावरण के साथ बातचीत करता है, पुरस्कार जमा करता है, और फिर पर्यावरण रीसेट हो जाता है। अनुकरण सीखने में, प्रत्येक रिकॉर्ड किया गया प्रदर्शन एक एपिसोड का गठन करता है। एपिसोड रोबोट लर्निंग डेटासेट की मूलभूत इकाई हैं: 1,000 एपिसोड के डेटासेट में संबंधित टिप्पणियों, कार्यों और परिणामों के साथ 1,000 कार्य प्रयास होते हैं। लगातार डेटा संग्रह सुनिश्चित करने के लिए एपिसोड की लंबाई, रीसेट स्थितियां और सफलता मानदंड को सटीक रूप से परिभाषित किया जाना चाहिए।

डेटासुदृढीकरण सीखनानकल सीखना

बाह्य (कैमरा)

कैमरा एक्सट्रिंसिक्स एक संदर्भ फ्रेम के सापेक्ष कैमरे की स्थिति और अभिविन्यास (6-डीओएफ पोज़) को परिभाषित करता है - आमतौर पर रोबोट बेस या एंड-इफ़ेक्टर। आंतरिक मापदंडों (फोकल लंबाई, मुख्य बिंदु, लेंस विरूपण) के साथ, बाहरी पैरामीटर 3डी विश्व बिंदुओं को छवि तल पर प्रक्षेपित करने और, इसके विपरीत, 2डी पहचान को 3डी स्पेस में उठाने की अनुमति देते हैं। विज़ुओमोटर नीतियों के लिए सटीक बाहरी अंशांकन महत्वपूर्ण है, जिसे एक सुसंगत समन्वय फ्रेम में रोबोट क्रियाओं के दृश्य अवलोकनों को मैप करना होगा। जब एंड-इफ़ेक्टर या कैमरा बदला जाता है तो आई-इन-हैंड (कलाई पर लगे) कैमरों को पुन: अंशांकन की आवश्यकता होती है।

धारणाकैलिब्रेशन

F

फोर्स टॉर्क सेंसर (एफटी सेंसर)

एक बल-टॉर्क सेंसर रोबोट की कलाई या अंत-प्रभावक पर लगाए गए छह-अक्ष रिंच (तीन बल Fx, Fy, Fz और तीन टॉर्क Tx, Ty, Tz) को मापता है। एफटी सेंसर संपर्क-समृद्ध और असेंबली कार्यों के लिए आवश्यक हैं जहां शुद्ध स्थिति नियंत्रण या तो संपर्कों को चूक जाएगा या अत्यधिक बल लागू करेगा। वे प्रतिबाधा और प्रवेश नियंत्रण लूप सक्षम करते हैं, फिसलन और टकराव का पता लगाते हैं, और सीखी गई नीतियों के लिए समृद्ध संवेदी इनपुट प्रदान करते हैं। एटीआई और रोबोटिक के उच्च परिशुद्धता एफटी सेंसर अनुसंधान प्रयोगशालाओं में मानक हैं; एमईएमएस-आधारित कम लागत वाले सेंसर उत्पादन तैनाती के लिए तेजी से व्यवहार्य हैं।

हार्डवेयरसंवेदननियंत्रण

फाउंडेशन मॉडल (रोबोटिक्स)

फाउंडेशन मॉडल व्यापक, विविध डेटा पर पहले से प्रशिक्षित एक बड़ा तंत्रिका नेटवर्क है जिसे फाइन-ट्यूनिंग या प्रॉम्प्टिंग के माध्यम से कई डाउनस्ट्रीम कार्यों में अनुकूलित किया जा सकता है। रोबोटिक्स में, फाउंडेशन मॉडल आम तौर पर बड़े विज़न-लैंग्वेज मॉडल (वीएलएम) होते हैं जिन्हें एक्शन आउटपुट के साथ विस्तारित किया जाता है वीएलए, या क्रॉस-अवतार डेटासेट पर प्रशिक्षित बड़ी विज़ुओमोटर नीतियां। उदाहरणों में RT-2 (Google DeepMind), OpenVLA, Octo, और pi0 (फिजिकल इंटेलिजेंस) शामिल हैं। रोबोटिक्स के लिए फाउंडेशन मॉडल आकर्षक हैं क्योंकि वे इंटरनेट-स्केल प्रीट्रेनिंग का लाभ उठा सकते हैं, भाषा कंडीशनिंग का समर्थन कर सकते हैं, और प्रति-कार्य को फिर से शुरू किए बिना कार्यों में सामान्यीकृत कर सकते हैं। देखना एसवीआरसी मॉडल कैटलॉग.

VLAपूर्व प्रशिक्षणसामान्यकरण

फॉरवर्ड किनेमेटिक्स (एफके)

फॉरवर्ड किनेमेटिक्स रोबोट के संयुक्त कोण (या प्रिज्मीय जोड़ों के लिए विस्थापन) को देखते हुए कार्टेशियन स्पेस में अंतिम-प्रभावक की मुद्रा की गणना करता है। एक सीरियल चेन रोबोट के लिए, एफके की गणना सजातीय परिवर्तन मैट्रिक्स (एक प्रति जोड़) के अनुक्रम को गुणा करके की जाती है, जो आमतौर पर डेनाविट-हार्टेनबर्ग (डीएच) पैरामीटर या यूआरडीएफ विवरण से प्राप्त होता है। एफके के पास हमेशा एक अनूठा समाधान होता है - संयुक्त कोण दिए जाने पर, बिल्कुल एक अंत-प्रभावक मुद्रा होती है - विपरीत समस्या के विपरीत (IK), जिसके शून्य, एक या अनेक समाधान हो सकते हैं। एफके का उपयोग सिमुलेशन, टकराव जांच, विज़ुअलाइज़ेशन और वास्तविक समय रोबोट स्थिति निगरानी में किया जाता है।

गतिकीनियंत्रण

G

सामान्यकरण (रोबोट नीति)

सामान्यीकरण मापता है कि रोबोट नीति उन वस्तुओं, दृश्यों या कार्यों पर कितना अच्छा प्रदर्शन करती है जिन्हें उसने प्रशिक्षण के दौरान नहीं देखा है। यह रोबोट सीखने की केंद्रीय चुनौती है: एक ऐसी नीति जो प्रशिक्षण प्रदर्शनों को याद रखती है लेकिन नए उदाहरणों पर विफल रहती है, उसका कोई व्यावहारिक मूल्य नहीं है। शोधकर्ता वस्तु सामान्यीकरण (ज्ञात श्रेणियों के नए उदाहरण), श्रेणी सामान्यीकरण (पूरी तरह से नए वस्तु वर्ग), और कार्य सामान्यीकरण (नए निर्देश वाक्यांश या लक्ष्य विन्यास) में अंतर करते हैं। सामान्यीकरण में सुधार के लिए आम तौर पर बड़े और अधिक विविध प्रशिक्षण डेटा, इंटरनेट डेटा के साथ सह-प्रशिक्षण, सिमुलेशन में डोमेन यादृच्छिकीकरण और की आवश्यकता होती है। फाउंडेशन मॉडल पूर्व.

नीतिरिसर्च फ्रंटियर

पकड़ मुद्रा

ग्रैस्प पोज़ किसी वस्तु के सापेक्ष रोबोट के हाथ या ग्रिपर की 6-डीओएफ स्थिति और अभिविन्यास को निर्दिष्ट करता है ताकि ग्रिपर वस्तु को बंद कर सके और सुरक्षित रूप से पकड़ सके। ग्रैस्प पोज़ का आकलन आम तौर पर विश्लेषणात्मक तरीकों (उदाहरण के लिए, एंटीपोडल ग्रैस्प सैंपलिंग) या ग्रैस्पनेट-1 बिलियन, जीक्यू-सीएनएन, या एनीग्रास्प जैसे सीखे गए डिटेक्टरों का उपयोग करके गहराई या बिंदु-क्लाउड डेटा से किया जाता है। एक वैध ग्रैस्प पोज़ रोबोट द्वारा पहुंच योग्य होना चाहिए, दृष्टिकोण के दौरान टकराव-मुक्त और अपेक्षित कार्य भार के तहत स्थिर होना चाहिए। समझ गुणवत्ता मेट्रिक्स में बल-क्लोजर, संपर्क स्थिरता और कार्य-विशिष्ट रिंच प्रतिरोध शामिल हैं।

चालाकीधारणा

ग्रिपर

ग्रिपर रोबोट का सबसे सामान्य वर्ग है अंत-प्रभावक, वस्तुओं को पकड़ने और पकड़ने के लिए डिज़ाइन किया गया। समानांतर-जबड़े ग्रिपर सबसे सरल और सबसे व्यापक रूप से उपयोग किए जाने वाले उपकरण हैं, जिनमें दो विपरीत उंगलियां मोटर या न्यूमेटिक्स द्वारा संचालित होती हैं। सक्शन ग्रिपर चिकनी, सपाट सतहों को चुनने के लिए वैक्यूम का उपयोग करते हैं। नरम ग्रिपर अनियमित वस्तुओं के अनुरूप बनाने के लिए अनुरूप सामग्री (सिलिकॉन, कपड़े) का उपयोग करते हैं। बहु-उँगलियों वाले हाथ (3-5 उंगलियाँ) सक्षम करते हैं निपुण हेरफेर लेकिन इन्हें नियंत्रित करना कठिन और अधिक महंगा है। ग्रिपर का चयन वस्तु ज्यामिति, सतह के गुणों, आवश्यक पेलोड और हाथ में पुनर्संरचना की आवश्यकता है या नहीं, इस पर गंभीर रूप से निर्भर करता है।

हार्डवेयरअंत-प्रभावक

H

HDF5 (पदानुक्रमित डेटा प्रारूप v5)

HDF5 बड़े, संरचित वैज्ञानिक डेटासेट को कुशलतापूर्वक संग्रहीत करने और उन तक पहुंचने के लिए एक बाइनरी फ़ाइल प्रारूप और लाइब्रेरी है। रोबोटिक्स में, HDF5 रोबोट प्रदर्शन डेटासेट के लिए मानक कंटेनर है: एक एकल फ़ाइल सिंक्रनाइज़ कैमरा छवियों, संयुक्त कोण, ग्रिपर स्थिति, बल रीडिंग और मेटाडेटा को पदानुक्रमित समूहों में संग्रहीत करती है, जिसमें खंडित I/O प्रशिक्षण के दौरान तेज़ यादृच्छिक पहुंच को सक्षम करता है। LeRobot और ALOHA पारिस्थितिकी तंत्र दोनों मूल रूप से HDF5 का उपयोग करते हैं। विकल्प ज़ार प्रारूप समवर्ती लेखन के लिए बेहतर समर्थन के साथ क्लाउड-नेटिव चंक्ड स्टोरेज प्रदान करता है। एसवीआरसी का डेटा संग्रह पाइपलाइन डिफ़ॉल्ट रूप से एचडीएफ5 आउटपुट।

डेटाभंडारणइंजीनियरिंग

ह्यूमनॉइड रोबोट

एक ह्यूमनॉइड रोबोट की शारीरिक संरचना मोटे तौर पर मानव के समान होती है - आमतौर पर एक धड़, दो पैर, दो हाथ और एक सिर - जो इसे लोगों के लिए डिज़ाइन किए गए वातावरण में काम करने और मानव उपकरणों का उपयोग करने में सक्षम बनाता है। उल्लेखनीय ह्यूमनॉइड्स में बोस्टन डायनेमिक्स एटलस, एजिलिटी रोबोटिक्स डिजिट, फिगर 01 और टेस्ला ऑप्टिमस शामिल हैं। ह्यूमनॉइड्स अत्यधिक इंजीनियरिंग चुनौतियां पेश करते हैं: द्विपाद गति के लिए वास्तविक समय संतुलन नियंत्रण की आवश्यकता होती है, और लोको-हेरफेर कार्यों के लिए 30+ डीओएफ का समन्वय आवश्यक होता है पूरे शरीर पर नियंत्रण. इस जटिलता के बावजूद, ह्यूमनॉइड्स भारी निवेश को आकर्षित कर रहे हैं क्योंकि उनका फॉर्म फैक्टर बुनियादी ढांचे में बदलाव के बिना विभिन्न कार्यस्थलों में सामान्यीकृत होता है।

हार्डवेयरहरकतद्विहस्तक

मानव-रोबोट संपर्क (एचआरआई)

मानव-रोबोट संपर्क एक अंतःविषय क्षेत्र है जिसमें अध्ययन किया जाता है कि कैसे लोग और रोबोट भौतिक स्थान को प्रभावी ढंग से और सुरक्षित रूप से संचार, सहयोग और साझा करते हैं। एचआरआई अनुसंधान सुरक्षा मानकों (सहयोगी रोबोटों के लिए आईएसओ/टीएस 15066), टेलीऑपरेशन के लिए यूजर इंटरफेस डिजाइन, प्राकृतिक भाषा निर्देश, सुपाठ्य रोबोट गति (रोबोट के इरादे को दर्शकों के लिए पढ़ने योग्य बनाना), और सामाजिक रोबोटिक्स (गैर-मौखिक संचार के लिए टकटकी, इशारा और भाषण का उपयोग करना) तक फैला हुआ है। औद्योगिक सह-बॉट तैनाती में, एचआरआई सीधे यह निर्धारित करता है कि कर्मचारी अपने साथ रोबोट को स्वीकार करते हैं और प्रभावी ढंग से उनका उपयोग करते हैं या नहीं। अच्छा एचआरआई डिज़ाइन दुर्घटनाओं को कम करता है, थ्रूपुट में सुधार करता है और मानव पक्ष पर प्रशिक्षण का बोझ कम करता है।

सुरक्षासहयोग

I

नकल सीखना (आईएल)

नकल सीखना मशीन सीखने के तरीकों का एक परिवार है जो रोबोट नीतियों को इंजीनियर किए गए इनाम कार्यों के बजाय मानव प्रदर्शनों से प्रशिक्षित करता है। सबसे सरल रूप है व्यवहारिक क्लोनिंग (राज्य-कार्रवाई जोड़े पर पर्यवेक्षित प्रतिगमन)। अधिक उन्नत वेरिएंट - डीएगर (पुनरावृत्त सुधार), गेल (प्रतिकूल नकल), और आईआरएल (इनाम फ़ंक्शन पुनर्प्राप्त करना) - वितरण बदलाव और इनाम विनिर्देश समस्याओं को संबोधित करते हैं जो शुद्ध बीसी को परेशान करते हैं। कुशल हेरफेर सिखाने के लिए आईएल प्रमुख प्रतिमान बन गया है क्योंकि जटिल हेरफेर के लिए इनाम इंजीनियरिंग बेहद कठिन है, जबकि मानव प्रदर्शनों को इकट्ठा करना बड़े पैमाने पर संभव है टेलीऑपरेशन. देखें पूर्ण गहन लेख.

मूल संकल्पनानीतिडेटा

उलटा किनेमेटिक्स (मैं)

व्युत्क्रम गतिकी उन संयुक्त कोणों को हल करती है जो रोबोट के अंतिम-प्रभावक को वांछित कार्टेशियन मुद्रा में रखते हैं। भिन्न आगे की गतिकी, IK में रोबोट की गतिक संरचना और लक्ष्य मुद्रा के आधार पर शून्य, एक या अनंत रूप से कई समाधान हो सकते हैं। मानक 6-डीओएफ कॉन्फ़िगरेशन के लिए विश्लेषणात्मक आईके सॉल्वर मौजूद हैं; संख्यात्मक विधियाँ (जैकोबियन छद्म-उलटा, न्यूटन-राफसन, अनुकूलन-आधारित) मनमानी ज्यामिति और अनावश्यक रोबोट को संभालती हैं। IK का उपयोग मोशन प्लानिंग, टेलीऑपरेशन मैपिंग (ऑपरेटर के हाथ की मुद्रा को संयुक्त कमांड में परिवर्तित करना), और किसी भी कार्टेशियन-स्पेस कंट्रोलर में किया जाता है। KDL, IKFast और ट्रैक-ik जैसी लाइब्रेरी आमतौर पर ROS वातावरण में उपयोग की जाती हैं।

गतिकीनियंत्रणयोजना

इसहाक सिम

NVIDIA आइज़ैक सिम एक रोबोटिक्स सिमुलेशन प्लेटफ़ॉर्म है जो ओमनिवर्स USD फ्रेमवर्क पर बनाया गया है, जो उच्च-निष्ठा भौतिकी (PhysX 5 के माध्यम से), फोटो-यथार्थवादी प्रतिपादन (RTX पथ ट्रेसिंग के माध्यम से), और बॉक्स से बाहर ROS 2 एकीकरण प्रदान करता है। इसका उद्देश्य सिंथेटिक प्रशिक्षण डेटा तैयार करना, रोबोट नीतियों का परीक्षण करना और सिम-टू-रियल ट्रांसफर अनुसंधान करना है। आइजैक सिम बड़े पैमाने पर बनावट, प्रकाश व्यवस्था और ऑब्जेक्ट पोज़ के डोमेन रैंडमाइजेशन का समर्थन करता है, और NVIDIA के आइजैक लैब सुदृढीकरण सीखने के ढांचे के साथ एकीकृत होता है। इसकी जीपीयू-त्वरित भौतिकी हजारों समानांतर सिमुलेशन उदाहरणों के साथ आरएल नीतियों को प्रशिक्षित करने की अनुमति देती है। पर और जानें एसवीआरसी इसाक सिम संसाधन पृष्ठ.

सिमुलेशनसिंथेटिक डेटाऔजार

J

संयुक्त स्थान (कॉन्फ़िगरेशन स्थान)

संयुक्त स्थान (जिसे कॉन्फ़िगरेशन स्थान या सी-स्पेस भी कहा जाता है) एक रोबोट के लिए सभी संभावित संयुक्त कोण वैक्टर का स्थान है। संयुक्त स्थान में एक बिंदु विशिष्ट रूप से रोबोट के पूर्ण विन्यास को निर्दिष्ट करता है। आरआरटी ​​और पीआरएम जैसे मोशन प्लानिंग एल्गोरिदम कॉन्फ़िगरेशन के बीच टकराव-मुक्त पथ खोजने के लिए संयुक्त स्थान में काम करते हैं, क्योंकि कार्टेशियन स्पेस की तुलना में वहां टकराव की जांच अधिक सरल है। कई आरएल नीतियां सीधे संयुक्त स्थान में संयुक्त स्थिति या वेग का उत्पादन करती हैं, जबकि अनुकरण सीखने की नीतियां अक्सर काम करती हैं कार्तीय स्थान आसान मानव-प्रदर्शनकर्ता संरेखण के लिए। देखें संयुक्त अंतरिक्ष लेख.

गतिकीयोजना

संयुक्त टोक़

संयुक्त टॉर्क एक मोटर द्वारा रोबोट के जोड़ पर लगाया जाने वाला घूर्णी बल है, जिसे न्यूटन-मीटर (एनएम) में मापा जाता है। टॉर्क-नियंत्रित रोबोट (स्थिति-नियंत्रित रोबोटों के विपरीत) संपर्क बलों को सीधे नियंत्रित कर सकते हैं, जिससे धकेले जाने पर झुकना और असेंबली बलों को सटीक रूप से नियंत्रित करने जैसे अनुरूप व्यवहार सक्षम हो सकते हैं। प्रत्येक जोड़ पर टॉर्क सेंसिंग फ्रेंका पांडा, यूनिवर्सल रोबोट यूआर श्रृंखला और कूका आईवा जैसे सहयोगी रोबोट (कोबोट) की एक प्रमुख विशेषता है, जो सुरक्षित मानव-रोबोट सहयोग और पूरे शरीर के अनुरूप नियंत्रण को सक्षम बनाता है। सीखने की नीतियां जो स्थिति के बजाय संयुक्त टॉर्क का उत्पादन करती हैं, उन्हें अस्थिर दोलनों से बचने के लिए सावधानीपूर्वक प्रशिक्षण की आवश्यकता होती है।

नियंत्रणहार्डवेयरबल

K

गतिज श्रृंखला

गतिज श्रृंखला जोड़ों से जुड़ी कठोर शारीरिक कड़ियों की एक श्रृंखला है जो मिलकर एक रोबोट की यांत्रिक संरचना बनाती है। एक खुली श्रृंखला (सीरियल रोबोट बांह) में एक मुक्त अंत (अंत-प्रभावक) होता है, जो एफके को सीधा बनाता है। एक बंद श्रृंखला (समानांतर रोबोट, हेक्सापॉड) में कई लूप होते हैं जो उच्च कठोरता और गति प्रदान करते हैं लेकिन अधिक जटिल कीनेमेटिक्स की आवश्यकता होती है। गतिज श्रृंखला रोबोट के कार्यक्षेत्र, विलक्षणताओं और कार्टेशियन नियंत्रण के लिए उपयोग किए जाने वाले जैकोबियन मैट्रिक्स को निर्धारित करती है। यूआरडीएफ फाइलें सिमुलेशन और नियंत्रण सॉफ्टवेयर के लिए लिंक और जोड़ों के पेड़ के रूप में गतिज श्रृंखलाओं का वर्णन करती हैं।

गतिकीयांत्रिकी

गतिज शिक्षण

काइनेस्टेटिक शिक्षण (जिसे लीड-बाय-नोज़ या प्रत्यक्ष मार्गदर्शन भी कहा जाता है) रोबोट प्रोग्रामिंग की एक विधि है जहां एक मानव शारीरिक रूप से रोबोट की भुजा को पकड़ता है और उसे वांछित गति पथ के माध्यम से ले जाता है जबकि रोबोट प्रक्षेप पथ को रिकॉर्ड करता है। इसके लिए रोबोट को बैकड्राइवेबल (कम संयुक्त घर्षण और अनुपालन) होना आवश्यक है ताकि ऑपरेटर इसे न्यूनतम प्रयास के साथ स्थानांतरित कर सके। काइनेस्टेटिक शिक्षण सहज है और इसके लिए किसी बाहरी हार्डवेयर की आवश्यकता नहीं है, लेकिन यह उन कार्यों तक सीमित है जिन्हें ऑपरेटर भौतिक रूप से प्रदर्शित कर सकता है, और यह केवल प्रोप्रियोसेप्टिव डेटा (कोई कलाई कैमरा अवलोकन नहीं) उत्पन्न करता है जब तक कि कैमरे सह-रिकॉर्ड नहीं किए जाते हैं। फ्रेंका पांडा जैसे टॉर्क-नियंत्रित रोबोट पर गुरुत्वाकर्षण मुआवजा मोड गतिज शिक्षण को व्यावहारिक बनाता है।

डेटा संग्रहणनकल सीखना

L

भाषा-वातानुकूलित नीति

एक भाषा-वातानुकूलित नीति दृश्य अवलोकनों के साथ एक अतिरिक्त इनपुट के रूप में एक प्राकृतिक भाषा निर्देश लेती है (उदाहरण के लिए, "लाल कप उठाएं और इसे ट्रे पर रखें"), एक एकल नीति नेटवर्क को पुन: प्रशिक्षण के बिना रनटाइम पर चयनित कई कार्यों को करने में सक्षम बनाता है। भाषा कंडीशनिंग को आमतौर पर पूर्व-प्रशिक्षित भाषा मॉडल (सीएलआईपी, टी5, पीएएलएम) के साथ निर्देशों को एन्कोड करके और छवि सुविधाओं के साथ परिणामी एम्बेडिंग को फ्यूज करके कार्यान्वित किया जाता है। वीएलए मॉडल जैसे कि RT-2, OpenVLA, और pi0 डिज़ाइन द्वारा भाषा-अनुकूलित हैं। यह दृष्टिकोण प्रति कार्य के लिए अलग-अलग नीतियों को प्रशिक्षित करने की आवश्यकता को कम करता है और नवीन निर्देश वाक्यांशों के लिए शून्य-शॉट सामान्यीकरण का समर्थन करता है।

VLAफाउंडेशन मॉडलसामान्यकरण

अव्यक्त स्थान

एक अव्यक्त स्थान एक तंत्रिका नेटवर्क द्वारा सीखे गए डेटा का एक संपीड़ित, निम्न-आयामी प्रतिनिधित्व है - एक एनकोडर का आउटपुट जो एक अवलोकन के सबसे कार्य-प्रासंगिक विशेषताओं को कैप्चर करता है। रोबोट सीखने में, दृश्य दृश्यों के संरचित प्रतिनिधित्व को सीखने के लिए वीएई (वैरिएशनल ऑटोएन्कोडर्स) में अव्यक्त स्थानों का उपयोग किया जाता है, भविष्य की स्थितियों की भविष्यवाणी करने के लिए विश्व मॉडल में, और मल्टीमॉडल एक्शन वितरण को एन्कोड करने के लिए सीवीएई-आधारित नीतियों (जैसे एसीटी) में उपयोग किया जाता है। एक अच्छी तरह से संरचित अव्यक्त स्थान शब्दार्थ रूप से समान अवलोकनों को एक साथ रखता है, जो कच्चे पिक्सेल स्थान के बजाय अव्यक्त डोमेन में इंटरपोलेशन, योजना और डेटा वृद्धि को सक्षम बनाता है।

प्रतिनिधित्व सीखनानीति

लेरोबोट

लेरोबोट रोबोट सीखने के लिए हगिंग फेस की ओपन-सोर्स लाइब्रेरी है, जो नकल सीखने के एल्गोरिदम के मानकीकृत कार्यान्वयन प्रदान करता है (ACT, प्रसार नीति, टीडीएमपीसी), एक एकीकृत डेटासेट प्रारूप, विज़ुअलाइज़ेशन उपकरण और पूर्व-प्रशिक्षित मॉडल भार। इसका उद्देश्य एनएलपी के लिए ट्रांसफॉर्मर्स ने जो किया उसके अनुरूप एक एकल समेकित ढांचा प्रदान करके रोबोट सीखने के अनुसंधान में प्रवेश की बाधा को कम करना है। लेरोबोट डेटासेट और मॉडल साझाकरण के लिए हगिंग फेस हब के साथ एकीकृत होता है, और सिम्युलेटेड (जिमनेजियम-रोबोटिक्स, म्यूजोको) और भौतिक रोबोट वातावरण दोनों का समर्थन करता है। इसके साथ ही साथी SO-100 कम लागत वाली रोबोट किट भी जारी की गई।

औजारखुला स्त्रोतनकल सीखना

लेरोबोट एचएफ डेटासेट

लेरोबोट डेटासेट प्रारूप हगिंग फेस हब पर होस्ट किए गए रोबोट प्रदर्शन डेटा के लिए एक मानकीकृत स्कीमा है। प्रत्येक डेटासेट में Parquet फ़ाइलें (स्केलर टाइमसीरीज़ के लिए: संयुक्त स्थिति, कार्य, पुरस्कार, किए गए फ़्लैग) और कैमरा स्ट्रीम के लिए संपीड़ित MP4 वीडियो भाग होते हैं, सभी एपिसोड और फ़्रेम द्वारा अनुक्रमित होते हैं। ए meta/info.json फ़ाइल कैमरा नाम, रोबोट प्रकार, एफपीएस और सामान्यीकरण के लिए उपयोग किए जाने वाले डेटा आंकड़ों का वर्णन करती है। यह प्रारूप किसी भी LeRobot-संगत एल्गोरिदम को किसी भी प्रकाशित डेटासेट को कोड की एक पंक्ति के साथ लोड करने की अनुमति देता है, जिससे तेजी से क्रॉस-डेटासेट प्रयोग सक्षम होता है। दर्जनों हेरफेर और मोबाइल हेरफेर डेटासेट पहले से ही इस प्रारूप में प्रकाशित हैं।

डेटामानकखुला स्त्रोत

M

चालाकी

हेरफेर से तात्पर्य वस्तुओं के साथ उद्देश्यपूर्ण शारीरिक संपर्क से है - चुनना, रखना, संयोजन करना, मोड़ना, डालना, डालना और इसी तरह के कार्य। सन्निहित एआई में रोबोट हेरफेर सबसे सक्रिय अनुसंधान क्षेत्रों में से एक है, क्योंकि यहां तक ​​​​कि सरल रोजमर्रा के कार्यों (डिशवॉशर को लोड करना, पैकेज खोलना) के लिए समृद्ध धारणा, सटीक मोटर नियंत्रण और मजबूत समझ योजना की आवश्यकता होती है। संपर्क-समृद्ध असेंबली के माध्यम से, संपर्क-समृद्ध असेंबली के माध्यम से, असंरचित दृश्यों में उपन्यास वस्तुओं के साथ पूरी तरह से कुशल इन-हैंड पुनर्संरचना तक, निश्चित सेटअप में ज्ञात वस्तुओं के साथ सरल पिक-एंड-प्लेस से हेरफेर कठिनाई स्केल। एसवीआरसी का डेटा सेवाएँ प्रशिक्षण और मूल्यांकन के लिए हेरफेर प्रदर्शन एकत्र करने में विशेषज्ञ।

मूल संकल्पनाकाम

इसे हटाएं

MoveIt रोबोट हथियारों के लिए सबसे व्यापक रूप से इस्तेमाल किया जाने वाला ओपन-सोर्स मोशन प्लानिंग फ्रेमवर्क है, जिसे मूल रूप से विलो गैराज में विकसित किया गया था और अब इसे पिकनिक रोबोटिक्स द्वारा बनाए रखा गया है। MoveIt 2 ROS 2 पर चलता है और प्लानर (OMPL, CHOMP, PILZ), कार्टेशियन प्रक्षेपवक्र योजना, MoveIt के नियोजन दृश्य के विरुद्ध टकराव की जाँच, किनेमेटिक्स प्लगइन्स (KDL, IKFast, TracIK), और ग्रैस्प प्लानिंग एकीकरण प्रदान करता है। यह रोबोट सीखने की नीति (जो वांछित अंत-प्रभावक पोज़ या वेपॉइंट्स को आउटपुट करता है) और निम्न-स्तरीय संयुक्त नियंत्रक के बीच मानक मिडलवेयर परत है जो भौतिक रोबोट पर चिकनी, टकराव-मुक्त प्रक्षेपवक्र निष्पादित करता है।

औजारयोजनाROS

बहु-कार्य सीखना

मल्टी-टास्क लर्निंग एक साथ कई अलग-अलग कार्यों के प्रदर्शन पर एक ही नीति को प्रशिक्षित करता है, इस उम्मीद के साथ कि कार्यों में सीखे गए साझा प्रतिनिधित्व प्रत्येक व्यक्तिगत कार्य पर प्रदर्शन में सुधार करते हैं और नए कार्यों के लिए सामान्यीकरण को सक्षम करते हैं। रोबोटिक्स में, इसका अर्थ अक्सर विभिन्न वस्तुओं, लक्ष्यों और वातावरणों के साथ सैकड़ों कार्यों पर प्रशिक्षण होता है। मुख्य चुनौती विभिन्न कार्यों के क्रमिक योगदान (ग्रेडिएंट हस्तक्षेप) को संतुलित करना है और यह सुनिश्चित करना है कि नीति अनुमान के समय कार्यों के बीच अंतर कर सके - आमतौर पर भाषा कंडीशनिंग या एक-हॉट कार्य पहचानकर्ताओं के माध्यम से। सामान्य प्रयोजन वाले रोबोटिक सहायकों के लिए बहु-कार्य नीतियां एक पूर्वापेक्षा है।

नीतिसामान्यकरणप्रशिक्षण

N

तंत्रिका नीति

एक तंत्रिका नीति एक तंत्रिका नेटवर्क द्वारा मानकीकृत एक रोबोट नियंत्रण नीति है जो अवलोकनों (छवियों, प्रोप्रियोसेप्शन, भाषा) को सीधे क्रियाओं (संयुक्त स्थिति, कार्टेशियन डेल्टा, ग्रिपर कमांड) पर मैप करती है। शास्त्रीय गति नियोजन पाइपलाइनों के विपरीत, तंत्रिका नीतियां हाथ से इंजीनियर किए गए मध्यवर्ती अभ्यावेदन के बिना डेटा से शुरू से अंत तक मैपिंग सीखती हैं। आधुनिक तंत्रिका नीतियां दृष्टि के लिए कन्वेन्शनल एनकोडर, अनुक्रम मॉडलिंग के लिए ट्रांसफार्मर और एक्शन जेनरेशन के लिए एसीटी, डिफ्यूजन पॉलिसी या वीएलए बैकबोन जैसे आर्किटेक्चर का उपयोग करती हैं। तंत्रिका नीतियों की एक प्रमुख संपत्ति यह है कि उन्हें प्रदर्शनों या इनाम संकेतों से प्रशिक्षित किया जा सकता है, जिससे वे हाथ से कोडित नियंत्रकों के लिए बहुत जटिल कार्यों को संभालने में सक्षम हो सकते हैं।

नीतिगहन शिक्षा

गैर-प्रीहेंसाइल हेरफेर

गैर-प्रीहेंसाइल हेरफेर से तात्पर्य वस्तुओं को पकड़े बिना उनमें हेरफेर करना है - इसके बजाय धक्का देना, रोल करना, घुमाना, फ़्लिप करना, झुकाना या अन्य संपर्क रणनीतियों का उपयोग करना जो गुरुत्वाकर्षण और सतह घर्षण का लाभ उठाते हैं। उदाहरण के लिए, किसी बक्से को मेज पर रखने के लिए उस पर धकेलना, या खूंटी को पकड़ने से पहले उसे सीधा धक्का देना। गैर-प्रीहेंसाइल रणनीतियाँ वस्तुओं को समझने योग्य विन्यास में ले जा सकती हैं, वस्तुओं को समझने के लिए बहुत बड़ी जगह पर रख सकती हैं, या अव्यवस्थित दृश्यों में काम कर सकती हैं जहाँ समझने का तरीका संभव नहीं है। गैर-प्रीहेंसाइल क्रियाओं की योजना बनाने के लिए अर्ध-स्थैतिक या गतिशील वस्तु यांत्रिकी और संपर्क भौतिकी के मॉडलिंग की आवश्यकता होती है, जिससे यह हेरफेर और गति योजना के चौराहे पर एक सक्रिय शोध विषय बन जाता है।

चालाकीयोजना

O

अवलोकन स्थान

अवलोकन स्थान प्रत्येक समय-चरण पर रोबोट नीति के लिए उपलब्ध सभी सेंसर इनपुट को परिभाषित करता है। सामान्य तौर-तरीकों में कलाई या ओवरहेड कैमरों से आरजीबी छवियां, संरचित-प्रकाश या स्टीरियो सेंसर से गहराई के नक्शे, प्रोप्रियोसेप्टिव स्थिति (संयुक्त स्थिति, वेग, टोक़), ग्रिपर स्थिति, अंत-प्रभावक मुद्रा, स्पर्श रीडिंग और भाषा एम्बेडिंग या लक्ष्य छवियों जैसे कार्य-विनिर्देश इनपुट शामिल हैं। अवलोकन स्थान डिज़ाइन नीति प्रदर्शन और सामान्यीकरण को गहराई से प्रभावित करता है: समृद्ध अवलोकन अधिक जानकारी रखते हैं लेकिन मॉडल जटिलता, प्रशिक्षण समय और अप्रासंगिक दृश्य सुविधाओं के ओवरफिटिंग के जोखिम को बढ़ाते हैं।

धारणानीति

ओपन-लूप नियंत्रण

ओपन-लूप नियंत्रण निष्पादन के दौरान सेंसर फीडबैक का उपयोग किए बिना एक पूर्व-नियोजित प्रक्षेपवक्र को निष्पादित करता है - रोबोट केवल आदेशित स्थिति या वेग का पालन करता है, चाहे वास्तव में कुछ भी हो। यह नियंत्रित वातावरण में अत्यधिक दोहराए जाने वाले कार्यों के लिए उपयुक्त है, जैसे कि सीएनसी मशीनिंग या एक निश्चित कन्वेयर पर पिक-एंड-प्लेस। ओपन-लूप नियंत्रण तेज़ और सरल है लेकिन गड़बड़ी होने पर विफल हो जाता है, क्योंकि कोई सुधारात्मक कार्रवाई नहीं की जाती है। इसके विपरीत, बंद-लूप (फीडबैक) नियंत्रण लगातार वास्तविक स्थिति की तुलना वांछित स्थिति से करता है और सुधारात्मक आदेश लागू करता है, जिससे यह परिवर्तनशील वातावरण में रोबोट सीखने के लिए कहीं अधिक मजबूत हो जाता है।

नियंत्रण

एक्स-एम्बोडिमेंट खोलें

ओपन एक्स-एम्बोडिमेंट (ओएक्सई) Google डीपमाइंड और 33 अनुसंधान संस्थानों द्वारा इकट्ठा किया गया एक बड़े पैमाने का रोबोट प्रदर्शन डेटासेट है, जिसमें 22 विभिन्न रोबोट अवतारों और 527 से अधिक कौशल के 1 मिलियन से अधिक रोबोट एपिसोड शामिल हैं। इसे सक्षम करने के लिए बनाया गया था सह-प्रशिक्षण सभी अवतारों में - परिकल्पना यह है कि विविध रोबोट अनुभव अकेले एकल-रोबोट डेटासेट की तुलना में समृद्ध हेरफेर प्रतिनिधित्व सिखाता है। ओएक्सई पर प्रशिक्षित मॉडल आरटी-एक्स ने सभी अवतारों में सकारात्मक हस्तांतरण का प्रदर्शन किया और एकल-अवतार बेसलाइन की तुलना में रुके हुए कार्यों पर प्रदर्शन में सुधार किया। ओएक्सई डेटा सार्वजनिक रूप से उपलब्ध है और इसने क्रॉस-अवतार रोबोटिक्स अनुसंधान की एक लहर को उत्प्रेरित किया है।

डेटासेटफाउंडेशन मॉडलबहु-अवतार

P

पेलोड

पेलोड वह अधिकतम द्रव्यमान है (किसी भी अंतिम-प्रभावक और टूलींग के वजन सहित) जिसे एक रोबोट भुजा अपनी रेटेड स्थिति सटीकता और गतिशील प्रदर्शन को बनाए रखते हुए ले जा सकती है। पेलोड विनिर्देश आम तौर पर सहयोगी अनुसंधान रोबोटों के लिए 1 किलोग्राम से कम (विडोएक्स 250: 250 ग्राम) से लेकर बड़े औद्योगिक हथियारों के लिए 500+ किलोग्राम तक होते हैं। गंभीर रूप से, रेटेड पेलोड को आमतौर पर हाथ को पूरी तरह फैलाकर पूरी पहुंच पर उद्धृत किया जाता है; नज़दीकी सीमा और अधिक अनुकूल मुद्रा में, रोबोट अक्सर बहुत अधिक काम संभाल सकते हैं। पेलोड सीमा से अधिक होने से सटीकता कम हो जाती है, घिसाव तेज हो जाता है, और सुरक्षा दोष या शारीरिक क्षति हो सकती है। एसवीआरसी का हार्डवेयर कैटलॉग प्रत्येक रोबोट के लिए पेलोड सूचीबद्ध करता है।

हार्डवेयरविशिष्टता

नीति (रोबोट)

रोबोट लर्निंग में, एक नीति (जिसे π दर्शाया गया है) एक फ़ंक्शन है जो टिप्पणियों को क्रियाओं में मैप करता है: π(o) → a। नीति रोबोट का सीखा हुआ "मस्तिष्क" है जो यह निर्धारित करता है कि उसे जो भी लगता है उसे देखते हुए हर समय कदम पर क्या करना है। नीतियों को तंत्रिका नेटवर्क (तंत्रिका नीतियां), निर्णय वृक्ष, गाऊसी प्रक्रियाएं या लुकअप तालिकाओं के रूप में दर्शाया जा सकता है। वे नियतात्मक (प्रति अवलोकन एक क्रिया) या स्टोकेस्टिक (क्रियाओं पर एक वितरण) हो सकते हैं। नीति की गुणवत्ता केवल प्रशिक्षण प्रदर्शनों पर ही नहीं, बल्कि विभिन्न परिस्थितियों में कार्य की सफलता दर से मापी जाती है। रोबोट सीखने की मुख्य चुनौती प्रशिक्षण नीतियां हैं जो उनके प्रशिक्षण वितरण से परे विश्वसनीय रूप से सामान्यीकरण करती हैं।

मूल संकल्पनागहन शिक्षा

नीति कार्यान्वयन

पॉलिसी रोलआउट प्रारंभिक अवस्था से कार्य पूरा होने या टाइमआउट तक रोबोट पर (या सिमुलेशन में) प्रशिक्षित नीति को क्रियान्वित करने का एक एकल एपिसोड है। रोलआउट का उपयोग नीति प्रदर्शन का मूल्यांकन करने, आगे के प्रशिक्षण के लिए नया डेटा एकत्र करने (जैसे डीएगर या आरएल फाइन-ट्यूनिंग में), और डीबग विफलता मोड के लिए किया जाता है। विश्वसनीय प्रदर्शन अनुमान के लिए आवश्यक रोलआउट की संख्या कार्य परिवर्तनशीलता पर निर्भर करती है - उच्च-विचरण वाले कार्यों को स्थिर सफलता दर अनुमान प्राप्त करने के लिए 50+ रोलआउट की आवश्यकता हो सकती है। शोध में, सामान्यीकरण को चिह्नित करने के लिए रोलआउट को अक्सर प्रारंभिक स्थिति (इन-डिस्ट्रीब्यूशन बनाम आउट-ऑफ-डिस्ट्रीब्यूशन ऑब्जेक्ट्स/दृश्य) द्वारा वर्गीकृत किया जाता है।

मूल्यांकननीति

पूर्व प्रशिक्षण

प्री-ट्रेनिंग मॉडल विकास का वह चरण है जिसमें कार्य-विशिष्ट फ़ाइन-ट्यूनिंग से पहले एक तंत्रिका नेटवर्क को बड़े, विविध डेटासेट पर प्रशिक्षित किया जाता है। रोबोटिक्स फाउंडेशन मॉडल के लिए, इंटरनेट-स्केल विज़न-लैंग्वेज डेटा (चित्र, वीडियो, टेक्स्ट), क्रॉस-एम्बोडिमेंट रोबोट डेटासेट (ओपन एक्स-एम्बोडिमेंट), सिंथेटिक सिमुलेशन डेटा या संयोजन पर प्रीट्रेनिंग हो सकती है। पूर्व-प्रशिक्षित मॉडल वस्तुओं, कार्यों और अवधारणाओं के समृद्ध सामान्य प्रतिनिधित्व को सीखता है जो स्क्रैच से प्रशिक्षण की तुलना में बहुत कम प्रदर्शनों के साथ डाउनस्ट्रीम रोबोट कार्यों में स्थानांतरित होता है। आरटी-2 जैसे वीएलए मॉडल की सफलता के पीछे प्री-ट्रेनिंग तंत्र है, जो रोबोटिक और इंटरनेट-स्केल प्रीट्रेनिंग दोनों से लाभान्वित होता है।

फाउंडेशन मॉडलप्रशिक्षणस्थानांतरण सीखना

Q

क्यू-फ़ंक्शन (क्रिया-मूल्य फ़ंक्शन)

क्यू-फ़ंक्शन क्यू(एस, ए) अनुमान लगाता है कि एक एजेंट को राज्य में कार्रवाई करने और उसके बाद दी गई नीति का पालन करने पर अपेक्षित संचयी छूट वाला इनाम मिलेगा। Q-फ़ंक्शन DQN (असतत क्रियाएं) और SAC, TD3, और DDPG (निरंतर क्रियाएं) जैसे सुदृढीकरण सीखने के एल्गोरिदम के लिए केंद्रीय हैं। रोबोट आरएल में, लंबे-क्षितिज हेरफेर कार्यों के लिए सटीक क्यू-फ़ंक्शन सीखना चुनौतीपूर्ण है क्योंकि पुरस्कार विरल हैं और राज्य-क्रिया स्थान उच्च-आयामी है। ऑफ़लाइन आरएल (आईक्यूएल, सीक्यूएल) में हालिया काम ऑनलाइन इंटरैक्शन के बिना निश्चित डेटासेट से नीतियों को निकालने के लिए क्यू-फ़ंक्शन का उपयोग करता है, जिससे नकल सीखने और आरएल के बीच अंतर को पाट दिया जाता है।

सुदृढीकरण सीखनामूल्य समारोह

अर्ध-स्थैतिक हेरफेर

अर्ध-स्थैतिक हेरफेर मानता है कि गति इतनी धीमी है कि जड़त्वीय और गतिशील बल नगण्य हैं - सिस्टम प्रत्येक पल में प्रभावी रूप से स्थैतिक संतुलन में है। यह सरलीकरण पुशिंग, स्लाइडिंग, पिवोटिंग और इन-हैंड रीग्रेस्पिंग क्रियाओं की योजना बनाने के लिए ट्रैक्टेबल संपर्क यांत्रिकी मॉडलिंग को सक्षम बनाता है। कई रोबोट हेरफेर बेंचमार्क (अधिकांश टेबलटॉप पिक-एंड-प्लेस कार्यों सहित) अर्ध-स्थैतिक शासन में काम करते हैं। जब कार्यों में तेज थ्रो, डायनेमिक कैच या हाई-स्पीड असेंबली शामिल होती है, तो अर्ध-स्थैतिक धारणाएं टूट जाती हैं और संपर्क सिमुलेशन के साथ पूर्ण कठोर-बॉडी गतिशीलता की आवश्यकता होती है (उदाहरण के लिए, म्यूजोको, इसाक सिम)।

चालाकीयांत्रिकी

R

रियल-टू-सिम ट्रांसफर

रियल-टू-सिम ट्रांसफर (का पूरक)। सिम-टू-रियल) में वास्तविक दुनिया से यथासंभव निकटता से मेल खाने के लिए एक सिमुलेशन का निर्माण या अंशांकन शामिल है - अनिवार्य रूप से वास्तविक स्थितियों का एक डिजिटल जुड़वां बनाना। इसका उपयोग सिमुलेशन में वास्तविक विफलता मामलों को फिर से चलाने, वास्तविक सेंसर विशेषताओं से मेल खाने वाले अतिरिक्त सिंथेटिक प्रशिक्षण डेटा उत्पन्न करने और तैनाती से पहले नीति अपडेट का सुरक्षित रूप से परीक्षण करने के लिए किया जाता है। तकनीकों में कैमरे की उपस्थिति से मेल खाने के लिए फोटोग्रामेट्रिक दृश्य पुनर्निर्माण, भौतिकी पैरामीटर पहचान (सिस्टम पहचान), और तंत्रिका प्रतिपादन विधियां (एनईआरएफ, 3 डी गॉसियन स्प्लैटिंग) शामिल हैं। सटीक रियल-टू-सिम पाइपलाइनें नीति पुनरावृत्ति के लिए आवश्यक भौतिक प्रयोगों की संख्या को नाटकीय रूप से कम कर देती हैं।

सिमुलेशनडिजिटल ट्विनडेटा

पहुँचना

पहुंच एक रोबोट बांह के आधार से किसी भी बिंदु तक की अधिकतम दूरी है, जिसका अंतिम-प्रभावक अपने कार्यक्षेत्र के भीतर पहुंच सकता है। एक सीरियल आर्म के लिए, अधिकतम पहुंच सभी लिंक लंबाई के योग के बराबर होती है। परिनियोजन में प्रभावी पहुंच छोटी होती है - संयुक्त सीमा, आत्म-टकराव से बचाव, और कई अभिविन्यासों से वस्तुओं तक पहुंचने की आवश्यकता को ध्यान में रखते हुए। रीच यह निर्धारित करती है कि कौन से वर्कस्टेशन लेआउट और ऑब्जेक्ट प्लेसमेंट संभव हैं। किसी कार्य के लिए रोबोट का चयन करते समय, इंजीनियरों को यह पुष्टि करनी चाहिए कि आवश्यक कार्यक्षेत्र (समझने के लिए सभी दृष्टिकोण दिशाओं सहित) स्वीकार्य सटीकता पर रोबोट के पहुंच योग्य दायरे में आता है।

हार्डवेयरविशिष्टतागतिकी

रीप्ले बफ़र

एक रीप्ले बफ़र (या रीप्ले मेमोरी का अनुभव) पर्यावरण इंटरैक्शन के दौरान एक आरएल एजेंट द्वारा एकत्र किए गए अतीत (स्थिति, कार्रवाई, इनाम, अगली स्थिति, किया गया) संक्रमणों का एक डेटासेट है। प्रत्येक प्रशिक्षण चरण में, मूल्य फ़ंक्शन या नीति को प्रशिक्षित करने के लिए बफर से यादृच्छिक मिनी-बैचों का नमूना लिया जाता है, जो अस्थायी सहसंबंधों को तोड़ता है जो ग्रेडिएंट अपडेट को अस्थिर कर देगा। ऑफ़लाइन आरएल और रोबोट लर्निंग में, रीप्ले बफ़र को मानव प्रदर्शनों या पहले से एकत्रित रोलआउट के एक निश्चित डेटासेट द्वारा प्रतिस्थापित किया जाता है। सूचनात्मक बदलावों पर प्रशिक्षण पर ध्यान केंद्रित करने के लिए अस्थायी-अंतर त्रुटि द्वारा प्राथमिकता वाले अनुभव रीप्ले वेट सैंपलिंग।

सुदृढीकरण सीखनाडेटा

पुरस्कार समारोह

इनाम फ़ंक्शन एक सुदृढीकरण सीखने वाले एजेंट के लिए सीखने के उद्देश्य को परिभाषित करता है: यह प्रत्येक (राज्य, कार्रवाई, अगले राज्य) संक्रमण के लिए एक स्केलर इनाम सिग्नल आर (एस, ए, एस') निर्दिष्ट करता है, एजेंट को बताता है कि उसके कार्य कितने अच्छे या बुरे हैं। रिवॉर्ड फ़ंक्शन डिज़ाइन आरएल को रोबोटिक्स में लागू करने के सबसे कठिन हिस्सों में से एक है: विरल पुरस्कार (सफलता पर 1, अन्यथा 0) साफ़ हैं लेकिन धीमी गति से सीखने की ओर ले जाते हैं; घने पुरस्कार (उदाहरण के लिए, लक्ष्य से नकारात्मक दूरी) सीखने में मार्गदर्शन करते हैं लेकिन अप्रत्याशित तरीकों से खेला जा सकता है (इनाम हैकिंग)। विकल्पों में प्रदर्शनों से इनाम सीखना (आईआरएल, आरएलएचएफ), कार्य-विशिष्ट सिमुलेशन मेट्रिक्स और सीखे गए प्राथमिकता मॉडल शामिल हैं। नकल सीखना सीधे प्रदर्शनों से सीखकर इनाम डिजाइन समस्या को पूरी तरह से दूर कर देता है।

सुदृढीकरण सीखनामूल संकल्पना

S

सिम-टू-रियल ट्रांसफर

सिम-टू-रियल ट्रांसफर एक रोबोट नीति को पूरी तरह या मुख्य रूप से सिमुलेशन में प्रशिक्षित करने और फिर इसे भौतिक रोबोट पर तैनात करने की प्रक्रिया है, इस लक्ष्य के साथ कि नीति अतिरिक्त वास्तविक दुनिया डेटा के बिना (या न्यूनतम के साथ) काम करती है। मुख्य चुनौती है वास्तविकता का अंतर - सिमुलेशन और वास्तविक दुनिया के बीच भौतिकी निष्ठा, दृश्य उपस्थिति, सेंसर शोर और अनमॉडल गतिशीलता में अंतर। मुख्य शमन तकनीकों में डोमेन रैंडमाइजेशन (प्रशिक्षण के दौरान सिमुलेशन मापदंडों को यादृच्छिक बनाना), सिस्टम पहचान (वास्तविक हार्डवेयर से मिलान करने के लिए सिमुलेशन को कैलिब्रेट करना), और वास्तविक डेटा की छोटी मात्रा पर अनुकूली फाइन-ट्यूनिंग शामिल हैं। देखें विस्तृत आलेख.

स्थानांतरण सीखनासिमुलेशनतैनाती

राज्य स्थान

स्टेट स्पेस कॉन्फ़िगरेशन का पूरा सेट है जिसमें एक रोबोट और उसका वातावरण हो सकता है। आरएल में, मार्कोव स्टेट भविष्य के पुरस्कारों और राज्य परिवर्तनों की भविष्यवाणी करने के लिए आवश्यक सभी जानकारी को एनकोड करता है - आदर्श रूप से दुनिया का पूरा विवरण। व्यवहार में, एजेंट के पास केवल आंशिक अवलोकनों (चित्र, संयुक्त कोण) तक पहुंच होती है जो स्थिति को पूरी तरह से कैप्चर नहीं कर सकते हैं (उदाहरण के लिए, अवरुद्ध वस्तुएं, अज्ञात भौतिकी पैरामीटर)। एक अवलोकन स्थान डिजाइन करना जो कम्प्यूटेशनल रूप से ट्रैक्टेबल रहते हुए मार्कोव राज्य का अच्छी तरह से अनुमान लगाता है, रोबोट लर्निंग सिस्टम डिजाइन में एक महत्वपूर्ण चुनौती है।

सुदृढीकरण सीखनानियंत्रण

सर्जिकल रोबोटिक्स

सर्जिकल रोबोटिक्स चिकित्सा प्रक्रियाओं में रोबोट सिस्टम लागू करता है, सबसे प्रसिद्ध रूप से न्यूनतम इनवेसिव लेप्रोस्कोपिक सर्जरी के लिए इंटुएटिव सर्जिकल के दा विंची प्लेटफॉर्म के माध्यम से। सर्जिकल रोबोट मोशन स्केलिंग (बड़े ऑपरेटर आंदोलनों को उप-मिलीमीटर उपकरण गति में अनुवाद करना), कंपकंपी निस्पंदन और रोगी के अंदर उन्नत दृश्यता प्रदान करते हैं। उभरते शोध स्वायत्त सर्जिकल उप-कार्यों (सुटिंग, ऊतक प्रत्यावर्तन), एआई-सहायता मार्गदर्शन और कम-विलंबता 5 जी लिंक पर टेली-सर्जरी की खोज करते हैं। विनियामक अनुमोदन (एफडीए 510(के) या यूएस के लिए पीएमए) पर्याप्त सत्यापन बोझ जोड़ता है। सर्जिकल रोबोटिक्स के चौराहे पर बैठता है टेलीऑपरेशन, HRI, और संपर्क-समृद्ध हेरफेर.

चिकित्साटेलीऑपरेशनआवेदन

T

कार्य-पैरामीटरीकृत शिक्षण

टास्क-पैरामीटरीकृत शिक्षण एक निश्चित विश्व फ्रेम के बजाय कई समन्वय फ्रेम या कार्य पैरामीटर (उदाहरण के लिए, ऑब्जेक्ट की मुद्रा, एक लक्ष्य स्थान, एक बाधा फ्रेम) के सापेक्ष प्रदर्शनों को एन्कोड करता है। क्रियान्वित करते समय, नीति पुन: प्रशिक्षण के बिना नई वस्तु और लक्ष्य कॉन्फ़िगरेशन के लिए स्वचालित रूप से अनुकूलित हो जाती है, क्योंकि इसने कार्य-प्रासंगिक संदर्भों के सापेक्ष गति सीख ली है। टास्क-पैरामीटराइज़्ड गॉसियन मिक्सचर मॉडल (टीपी-जीएमएम) और कर्नेलाइज़्ड मूवमेंट प्रिमिटिव शास्त्रीय कार्यान्वयन हैं। यह दृष्टिकोण संरचित पिक-एंड-प्लेस कार्यों के लिए मजबूत ज्यामितीय सामान्यीकरण प्रदान करता है, हालांकि इसके लिए कार्य फ़्रेम को रनटाइम पर पहचानने और ट्रैक करने की आवश्यकता होती है।

नकल सीखनासामान्यकरणनीति

टेलीऑपरेशन

टेलीऑपरेशन एक मानव ऑपरेटर द्वारा रोबोट का रिमोट कंट्रोल है, जिसका उपयोग प्रत्यक्ष कार्य निष्पादन (सर्जिकल रोबोट, अंतरिक्ष रोबोटिक्स, बम निपटान) और उच्च गुणवत्ता वाले अनुकरण सीखने के प्रदर्शनों को इकट्ठा करने के लिए प्राथमिक विधि के रूप में किया जाता है। रोबोट सीखने में, एक सामान्य सेटअप एक लीडर-फॉलोअर आर्किटेक्चर का उपयोग करता है: ऑपरेटर एक हल्के लीडर आर्म को चलाता है और रोबोट (फॉलोअर) वास्तविक समय में लीडर को ट्रैक करता है। वीआर-आधारित टेलीऑपरेशन सिस्टम (हैंड ट्रैकिंग या कंट्रोलर का उपयोग करके) तेजी से लोकप्रिय हो रहे हैं क्योंकि वे अधिक एर्गोनोमिक हैं और उच्च डेटा थ्रूपुट की अनुमति देते हैं। एसवीआरसी पेशेवर टेलीऑपरेशन प्रदान करता है डेटा संग्रह सेवाएँ एंटरप्राइज़ रोबोट सीखने वाली टीमों के लिए।

डेटा संग्रहणनकल सीखनाहार्डवेयर

प्रक्षेपवक्र

प्रक्षेपवक्र रोबोट स्थितियों (संयुक्त कोण या कार्टेशियन पोज़) का एक समय-पैरामीटरयुक्त अनुक्रम है जो बताता है कि रोबोट प्रारंभिक कॉन्फ़िगरेशन से लक्ष्य तक कैसे चलता है। प्रक्षेपवक्र गति योजनाकारों द्वारा उत्पन्न किए जा सकते हैं (टकराव-मुक्त पथ की योजना बनाना और फिर सुचारू निष्पादन के लिए इसे समय-पैरामीटराइज़ करना), टेलीऑपरेशन रिकॉर्डिंग (एक निश्चित आवृत्ति पर ऑपरेटर की गति को कैप्चर करना), या एक तंत्रिका नीति द्वारा सीधे भविष्यवाणी की जा सकती है। भौतिक रोबोट सुरक्षा के लिए प्रक्षेपवक्र की चिकनाई और वेग निरंतरता महत्वपूर्ण हैं - अचानक रुकावटें यांत्रिक तनाव का कारण बनती हैं और सुरक्षा रुकावटों को ट्रिगर कर सकती हैं। प्रक्षेपवक्र अभ्यावेदन में स्प्लिन, डायनेमिक मूवमेंट प्रिमिटिव (डीएमपी), और असतत वेपॉइंट अनुक्रम शामिल हैं।

योजनानियंत्रणडेटा

स्थानांतरण सीखना

रोबोटिक्स में ट्रांसफर लर्निंग में एक डोमेन पर पहले से प्रशिक्षित मॉडल (उदाहरण के लिए, इंटरनेट विज़न-भाषा डेटा, सिमुलेशन, या एक अलग रोबोट) लेना और इसे सीमित अतिरिक्त डेटा के साथ लक्ष्य कार्य या रोबोट में अनुकूलित करना शामिल है। रोबोट प्रदर्शन डेटा पर पूर्व-प्रशिक्षित रीढ़ की अंतिम परतों को ठीक करना सबसे आम दृष्टिकोण है; पर्याप्त रोबोट डेटा उपलब्ध होने पर सभी भारों को पूर्ण रूप से ठीक करने का उपयोग किया जाता है। ट्रांसफर लर्निंग वह तंत्र है जो बनाता है नींव मॉडल रोबोटिक्स के लिए व्यावहारिक - अकेले रोबोट डेटा पर स्क्रैच से प्रशिक्षण के विकल्प के लिए लाखों प्रदर्शनों की आवश्यकता होगी। यह भी देखें पूर्व प्रशिक्षण, सिम-टू-रियल स्थानांतरण.

फाउंडेशन मॉडलप्रशिक्षण

U

URDF (एकीकृत रोबोट विवरण प्रारूप)

यूआरडीएफ एक एक्सएमएल-आधारित फ़ाइल प्रारूप है जो रोबोट की गतिक और गतिशील गुणों का वर्णन करता है: लिंक (द्रव्यमान, जड़ता और दृश्य/टकराव जाल के साथ कठोर शरीर) और जोड़ (लिंक के बीच कनेक्शन, प्रकार, अक्ष, सीमा और डंपिंग पैरामीटर के साथ)। यूआरडीएफ आरओएस में मानक रोबोट विवरण प्रारूप है और सभी प्रमुख सिमुलेशन प्लेटफार्मों (आइजैक सिम, म्यूजोको, गज़ेबो, पायबुलेट) द्वारा समर्थित है। यह रोबोट की गतिकी को MoveIt जैसे गति योजनाकारों में लोड करने, RViz में रोबोट की कल्पना करने और भौतिकी सिमुलेशन मॉडल को त्वरित करने में सक्षम बनाता है। XACRO (XML मैक्रो लैंग्वेज) का उपयोग आमतौर पर जटिल रोबोटों के लिए URDF फ़ाइलों को पैरामीटराइज़ और मॉड्यूलराइज़ करने के लिए किया जाता है। ओपनआर्म और अधिकांश एसवीआरसी हार्डवेयर में सार्वजनिक रूप से उपलब्ध यूआरडीएफ मॉडल हैं।

औजारमानकसिमुलेशन

V

VLA (दृष्टि-भाषा-क्रिया मॉडल)

विज़न-लैंग्वेज-एक्शन मॉडल एक तंत्रिका नेटवर्क है जो एक्शन आउटपुट उत्पन्न करने के लिए दृश्य अवलोकन (आरजीबी छवियां), प्राकृतिक भाषा निर्देश और रोबोट प्रोप्रियोसेप्शन को संयुक्त रूप से संसाधित करता है। वीएलए एक एक्शन हेड जोड़कर बड़े विज़न-लैंग्वेज मॉडल (वीएलएम जैसे कि पीएएलएम-ई, एलएलएवीए, या जेमिनी) का विस्तार करते हैं - मॉडल को उसकी भाषा भविष्यवाणियों के साथ-साथ रोबोट संयुक्त स्थिति या अंत-प्रभावक डेल्टा को आउटपुट करने के लिए प्रशिक्षित करते हैं। उल्लेखनीय वीएलए में आरटी-2 (पाठ टोकन के रूप में क्रियाओं को टोकन करना और वीएलएम को फाइन-ट्यून करना), ओपनवीएलए (ओपन-सोर्स, 7बी पैरामीटर, ओपन एक्स-एम्बोडिमेंट पर प्रशिक्षित), और पीआई0 (भौतिक इंटेलिजेंस का प्रवाह-मिलान वीएलए) शामिल हैं। देखें वीएलए और वीएलएम लेख और यह एसवीआरसी मॉडल कैटलॉग.

फाउंडेशन मॉडलभाषामूल संकल्पना

वाइपरएक्स

वाइपरएक्स ट्रॉसेन रोबोटिक्स द्वारा निर्मित 6-डीओएफ रोबोट हथियारों की एक श्रृंखला है, जो अपनी कम लागत, आरओएस समर्थन और डायनामिक्सेल सर्वो पारिस्थितिकी तंत्र के साथ संगतता के कारण अकादमिक रोबोट सीखने के अनुसंधान में व्यापक रूप से उपयोग किया जाता है। ViperX 300 (300 मिमी पहुंच के साथ) और ViperX 300-S अनुकरण शिक्षण सेटअप में पाए जाने वाले सबसे आम अनुसंधान हथियारों में से हैं और मूल में अनुयायी हथियार हैं ALOHA प्रणाली। ViperX हथियारों में औद्योगिक रोबोट की तुलना में मामूली पेलोड (~ 750 ग्राम) और सटीकता होती है, लेकिन हेरफेर अनुसंधान के लिए एक सुलभ प्रवेश बिंदु प्रदान करता है। एसवीआरसी ब्राउज़ करें लौह वस्तुओं की दुकान उपलब्धता के लिए.

हार्डवेयरअनुसंधान रोबोट

दृश्य सर्वोइंग

विज़ुअल सर्वोइंग एक रोबोट को छवि स्थान (छवि-आधारित विज़ुअल सर्वोइंग, आईबीवीएस) या छवियों से अनुमानित 3 डी स्थान (स्थिति-आधारित विज़ुअल सर्वोइंग, पीबीवीएस) में परिभाषित लक्ष्य की ओर मार्गदर्शन करने के लिए एक बंद-लूप नियंत्रक में कैमरा फीडबैक का उपयोग करता है। आईबीवीएस में, नियंत्रक स्पष्ट रूप से 3डी पोज़ की गणना किए बिना, पता लगाए गए छवि सुविधाओं (मुख्य बिंदु, ऑब्जेक्ट बाउंडिंग बॉक्स) और छवि विमान में उनकी वांछित स्थिति के बीच त्रुटि को कम करता है। विज़ुअल सर्वोइंग आकर्षक है क्योंकि यह सीधे अंशांकन त्रुटियों और कैमरा-रोबोट मिसलिग्न्मेंट की भरपाई करता है। आधुनिक डीप लर्निंग वेरिएंट न्यूरल नेटवर्क को कच्ची छवियों से सीधे सर्विंग वेलोसिटी कमांड आउटपुट करने के लिए प्रशिक्षित करते हैं, जिससे नई वस्तुओं के लिए मजबूत संरेखण सक्षम होता है।

नियंत्रणधारणाबंद लूप

W

मार्गबिंदु

वेपॉइंट एक मध्यवर्ती विन्यास (संयुक्त कोण या कार्टेशियन मुद्रा) है जिससे रोबोट के प्रक्षेप पथ को शुरू से लक्ष्य तक के रास्ते से गुजरना होगा। वेप्वाइंट प्रोग्रामर और योजनाकारों को विशिष्ट पोज़ के माध्यम से रोबोट के पथ का मार्गदर्शन करने की अनुमति देते हैं - उदाहरण के लिए, किसी बाधा से बचने के लिए, सुरक्षित दिशा से किसी वस्तु तक पहुंचना, या मल्टी-स्टेप असेंबली प्रक्रिया के माध्यम से अनुक्रम करना। रोबोट सीखने में, उच्च-स्तरीय नीतियां कभी-कभी आउटपुट वेपॉइंट्स देती हैं जिन्हें निचले स्तर का मोशन प्लानर सुचारु संयुक्त प्रक्षेप पथों में प्रक्षेपित करता है, जो सीखी गई नीतियों के सामान्यीकरण लाभों को शास्त्रीय योजना की सुरक्षा गारंटी के साथ जोड़ता है।

योजनाप्रक्षेपवक्र

पूरे शरीर पर नियंत्रण (डब्ल्यूबीसी)

पूरे शरीर का नियंत्रण कई प्रतिस्पर्धी उद्देश्यों को पूरा करने के लिए एक पैर वाले या ह्यूमनॉइड रोबोट के सभी जोड़ों को एक साथ समन्वयित करता है - संतुलन बनाए रखना, अंतिम-प्रभावक लक्ष्यों पर नज़र रखना, संयुक्त सीमाओं से बचना और संपर्क बलों का प्रबंधन करना - एक वास्तविक समय बाधित अनुकूलन समस्या (आमतौर पर एक क्यूपी) के रूप में हल किया जाता है। WBC ह्यूमनॉइड्स और लेग्ड मैनिपुलेटर्स के लिए आवश्यक है क्योंकि आधार स्थिर नहीं है: हाथ की गति द्रव्यमान के केंद्र को स्थानांतरित कर देती है और इसकी भरपाई पैर और धड़ समायोजन द्वारा की जानी चाहिए। ड्रेक, पिनोचियो और OCS2 जैसे WBC फ्रेमवर्क का उपयोग आमतौर पर ह्यूमनॉइड अनुसंधान में किया जाता है। मोबाइल ALOHA प्लेटफ़ॉर्म और बोस्टन डायनेमिक्स एटलस लोको-हेरफेर के लिए पूरे-बॉडी नियंत्रकों पर निर्भर हैं। देखना डब्ल्यूबीसी लेख.

नियंत्रणमानव सदृशहरकत

कार्यस्थान

एक रोबोट का कार्यक्षेत्र उन सभी स्थितियों (और अभिविन्यासों) का समूह है, जिन तक अंतिम-प्रभावक रोबोट की गतिक संरचना और संयुक्त सीमाओं को देखते हुए पहुंच सकता है। पहुंच योग्य कार्यक्षेत्र वह सभी स्थितियाँ हैं जहाँ अंतिम-प्रभावक कम से कम एक अभिविन्यास में पहुँच सकता है; निपुण कार्यक्षेत्र प्रत्येक अभिविन्यास में पहुंच योग्य छोटा उपसमूह है - मनमाने ढंग से दृष्टिकोण कोण की आवश्यकता वाले हेरफेर कार्यों के लिए सबसे उपयोगी क्षेत्र। कार्यक्षेत्र विश्लेषण सेल लेआउट (रोबोट और भागों को कितनी दूर होना चाहिए), रोबोट चयन (कार्य लेआउट तक पहुंच का मिलान), और गति योजना (कार्यक्षेत्र में विलक्षणता-मुक्त पथों की पहचान करना) को सूचित करता है।

गतिकीहार्डवेयरयोजना

Z

ज़ार (डेटा प्रारूप)

ज़ार एन-आयामी सरणियों को खंडित, संपीड़ित रूप में संग्रहीत करने के लिए एक ओपन-सोर्स प्रारूप है, जिसे क्लाउड-नेटिव और समानांतर I/O वर्कलोड के लिए डिज़ाइन किया गया है। रोबोटिक्स में, ज़ार का उपयोग बड़े रोबोट प्रदर्शन डेटासेट (छवियां, संयुक्त स्थिति, क्रियाएं) को ऐसे प्रारूप में संग्रहीत करने के लिए किया जाता है जिसे संपूर्ण फ़ाइलों को डाउनलोड किए बिना ऑब्जेक्ट स्टोरेज (एस 3, जीसीएस) से कुशलतापूर्वक पढ़ा जा सकता है। भिन्न HDF5ज़ार समवर्ती लेखन का समर्थन करता है, जो इसे वितरित डेटा संग्रह पाइपलाइनों के लिए उपयुक्त बनाता है। Zarr v3 ने प्रारूप को मानकीकृत किया और शार्डिंग (कई छोटे टुकड़ों को कम बड़ी फ़ाइलों में संयोजित करना) के लिए समर्थन जोड़ा, जिससे क्लाउड स्टोरेज दक्षता में सुधार होता है। लेरोबोट और कई स्वायत्त वाहन डेटासेट जैसी परियोजनाओं ने बड़े पैमाने पर डेटासेट होस्टिंग के लिए ज़ार को अपनाया है।

डेटाभंडारणइंजीनियरिंग

शून्य-शॉट सामान्यीकरण

शून्य-शॉट सामान्यीकरण एक प्रशिक्षित नीति की उन कार्यों, वस्तुओं या वातावरणों पर सफलतापूर्वक प्रदर्शन करने की क्षमता है, जिन्हें उसने प्रशिक्षण के दौरान बिना किसी अतिरिक्त फाइन-ट्यूनिंग या प्रदर्शन के स्पष्ट रूप से कभी नहीं देखा है। ट्रू जीरो-शॉट ट्रांसफर रोबोट फाउंडेशन मॉडल का एक प्रमुख लक्ष्य है - एक नीति जो उपन्यास घरेलू वस्तुओं या नई भाषा निर्देशों के लिए जीरो-शॉट को सामान्य बनाती है, डेटा संग्रह के बोझ को नाटकीय रूप से कम कर देगी। वर्तमान वीएलए मॉडल आशाजनक शून्य-शॉट भाषा सामान्यीकरण (ज्ञात कार्य प्रकारों के उपन्यास वाक्यांशों को समझना) दिखाते हैं लेकिन फिर भी वास्तव में उपन्यास ऑब्जेक्ट श्रेणियों या पूरी तरह से नए हेरफेर कौशल के साथ संघर्ष करते हैं। शून्य-शॉट प्रदर्शन में सुधार करना रोबोट डेटासेट और मॉडल आकार को स्केल करने के लिए केंद्रीय प्रेरणा है। यह भी देखें शून्य-शॉट स्थानांतरण आलेख.

सामान्यकरणफाउंडेशन मॉडलरिसर्च फ्रंटियर

कोई भी शब्द आपकी खोज से मेल नहीं खाता

छोटा शब्द आज़माएँ या वर्तनी जाँचें। खोज साफ़ होने पर सभी 65 शब्द ऊपर सूचीबद्ध हो जाते हैं।

आपके शिक्षण प्रोजेक्ट के लिए रोबोट डेटा की आवश्यकता है?

हम नकल सीखने और आरएल के लिए उच्च-गुणवत्ता, सीखने के लिए तैयार प्रदर्शन एकत्र करते हैं - टेबलटॉप हेरफेर से लेकर मोबाइल द्वि-मैनुअल कार्यों तक।