स्पर्शनीय प्रदर्शनों की रिकॉर्डिंग

अधिकांश रोबोट सीखने वाले डेटासेट में स्पर्शनीय डेटा गायब है। यह पृष्ठ बताता है कि यह क्यों मायने रखता है, सिंक्रनाइज़ किए गए स्पर्श + आर्म + कैमरा स्ट्रीम, विस्तारित डेटासेट प्रारूप को कैसे रिकॉर्ड किया जाए, और स्पर्श इनपुट का उपयोग करने वाली नीतियों को कैसे प्रशिक्षित किया जाए।

क्यों टैक्टाइल डेटा रोबोट सीखने में सुधार करता है

दृष्टि नीति बताती है कहाँ पकड़ने वाला है. प्रोप्रियोसेप्शन यह बताता है कितनी दूर उंगलियां बंद हैं. न ही यह बताता है क्या पकड़ स्थिर है. अकेले दृष्टि + संयुक्त डेटा पर प्रशिक्षित नीति को वस्तु गति, हाथ बल सीमा, या रोलआउट के दौरान परीक्षण-और-त्रुटि से अप्रत्यक्ष रूप से गुणवत्ता को समझना सीखना चाहिए। स्पर्श संवेदन को जोड़ने से प्रत्यक्ष संपर्क राज्य पर्यवेक्षण प्रदान होता है: नीति को प्रत्येक प्रदर्शन के प्रत्येक समय पर एक फिसलन-प्रवण से एक सुरक्षित समझ को अलग करने वाला एक जमीनी-सच्चाई संकेत प्राप्त होता है। यह विशेष रूप से विकृत, पारदर्शी, या विभिन्न आकार की वस्तुओं के लिए प्रभावशाली है जहां दृश्य समझ गुणवत्ता का अनुमान अविश्वसनीय है।

सिंक्रोनाइज़्ड रिकॉर्डिंग के लिए हार्डवेयर सेटअप

एक पूर्ण मल्टी-मोडल रिकॉर्डिंग रिग के लिए तीन हार्डवेयर परतों की आवश्यकता होती है, जो सभी एक सामान्य घड़ी के साथ सिंक्रनाइज़ होती हैं:

  1. रोबोट भुजा - यूएसबी या ईथरनेट के माध्यम से 100-500 हर्ट्ज पर संयुक्त स्थिति, वेग और अंत-प्रभावक मुद्रा प्रदान करता है। हार्डवेयर-स्टैम्प्ड संयुक्त स्थिति प्राप्त करने के लिए आर्म एसडीके के टाइमस्टैम्प एपीआई का उपयोग करें, सिस्टम समय का नहीं।
  2. पैक्सिनी Gen3 सेंसर - रोबोट की कलाई पर लगे एक संचालित यूएसबी हब में प्लग किया गया। प्रत्येक फ़्रेम को यूएसबी इंटरप्ट टाइम (नैनोसेकंड रिज़ॉल्यूशन, <0.5 एमएस जिटर) पर होस्ट पीसी द्वारा टाइमस्टैम्प किया जाता है।
  3. कैमरा - एक कलाई पर लगाया जाने वाला कैमरा (वैकल्पिक: एक ओवरहेड कैमरा)। हार्डवेयर ट्रिगर सिंक के साथ USB या GigE कैमरा या ज्ञात विलंबता वाले सॉफ़्टवेयर-ट्रिगर कैमरे का उपयोग करें। 30-60 एफपीएस पर रिकॉर्ड करें।

सभी तीन स्रोत एक ही मोनोटोनिक होस्ट घड़ी का उपयोग करके टाइमस्टैम्प लिखते हैं। प्लेटफ़ॉर्म SDK's मल्टीसोर्सरिकॉर्डर टाइमस्टैम्प इंटरपोलेशन का उपयोग करके पोस्ट-प्रोसेसिंग समय पर फ़्रेम को संरेखित करता है।

# Complete synchronized recording session paxini.sync से मल्टीसोर्सरिकॉर्डर आयात करें रिकॉर्डर = मल्टीसोर्सरिकॉर्डर( बांह=आर्म_इंटरफ़ेस, सेंसर=पैक्सिनी.सेंसर(), कैमरा=कैमरा_इंटरफ़ेस, आउटपुट_dir='./demo_recordings/', एपिसोड_उपसर्ग = "समझ_स्थान" ) रिकॉर्डर.स्टार्ट_एपिसोड() # ... perform the manipulation demo ... रिकॉर्डर.end_episode() # saves episode_000.hdf5

डेटासेट प्रारूप - विस्तारित लेरोबोट स्कीमा

Paxini Gen3 डेटा संग्रह पाइपलाइन अतिरिक्त स्पर्श चैनलों के साथ मानक LeRobot HDF5 डेटासेट प्रारूप का विस्तार करती है। मौजूदा लेरोबोट उपकरण (डेटा लोडिंग, विज़ुअलाइज़ेशन, नीति प्रशिक्षण) पूरी तरह से संगत रहते हैं - नई कुंजियों को केवल पाइपलाइनों द्वारा अनदेखा किया जाता है जो उनका उपयोग नहीं करते हैं।

HDF5 कुंजी आकार स्रोत
अवलोकन.स्थिति(टी, 7)बांह के जोड़ की स्थिति + ग्रिपर की चौड़ाई
अवलोकन.छवियाँ.कलाई(टी, एच, डब्ल्यू, 3)कलाई कैमरा (uint8 RGB)
कार्रवाई(टी, 7)लक्ष्य संयुक्त स्थिति + ग्रिपर कमांड
अवलोकन.स्पर्शीय.दबाव_मानचित्र(टी, 8, 8)पैक्सिनी जेन3 दबाव सारणी (केपीए, फ्लोट32)
अवलोकन.स्पर्शीय.कुल_बल_n(टी,)प्रति फ्रेम कुल सामान्य बल (न्यूटन)
अवलोकन.tactile.in_contact(टी,)प्रति फ़्रेम बूलियन संपर्क ध्वज
अवलोकन.स्पर्शीय.संपर्क_केन्द्रित(टी, 2)प्रति फ्रेम संपर्क सेंट्रोइड (पंक्ति, कॉलम)।
मेटा/टाइमस्टैम्प_एनएस(टी,)सभी चैनलों के लिए नैनोसेकंड टाइमस्टैम्प

नई स्पर्शनीय कुंजियाँ हाइलाइट की गई हैं. अन्य सभी कुंजियाँ मानक LeRobot स्कीमा का पालन करती हैं।

स्पर्शनीय डेटा के लिए गुणवत्ता जांच सूची

प्रत्येक सत्र से पहले बेसलाइन अंशांकन चलाएँ पुकारना sensor.calibrate() ग्रिपर को खोलकर और उतारकर। यह उंगली के स्वयं-संपर्क और केबल तनाव को शून्य कर देता है। यदि हाथ की स्थिति महत्वपूर्ण रूप से बदल गई है तो पुन: अंशांकन करें।
सत्यापित करें कि संपर्क ईवेंट वीडियो के साथ संरेखित हों अपना पूरा डेटासेट एकत्र करने से पहले डेटा विज़ुअलाइज़र में 5 एपिसोड की समीक्षा करें। in_contact उभरता हुआ किनारा कैमरा फ़ीड में फिंगरटिप-ऑब्जेक्ट संपर्क के दृश्यमान क्षण के साथ मेल खाना चाहिए। 20 एमएस से अधिक का अंतराल टाइमस्टैम्प संरेखण समस्या को इंगित करता है।
अपने प्रदर्शनों में पूरी शक्ति सीमा को कवर करें हल्के, मध्यम और मजबूत पकड़ स्तरों पर पकड़ रिकॉर्ड करने का लक्ष्य रखें। यदि आपके सभी डेमो अधिकतम ग्रिपर बल का उपयोग करते हैं, तो नीति संपर्क दबाव को नियंत्रित करना नहीं सीखेगी। प्रत्येक प्रकरण में वस्तु का वजन और अनुपालन भिन्न-भिन्न करें।
प्रशिक्षण डेटा से स्लिप इवेंट को चिह्नित करें और बाहर करें ऐसे एपिसोड जहां वस्तु पकड़ के बीच में ही फिसल जाती है लेकिन डेमो सफल परिणाम तक जारी रहता है, उसमें परस्पर विरोधी पर्यवेक्षण संकेत होते हैं। एसडीके का प्रयोग करें paxini.annotate.flag_slip_events(episode) इन्हें समीक्षा के लिए स्वचालित रूप से चिह्नित करने के लिए।
सेंसर संतृप्ति की जाँच करें अगर pressure_map.max() किसी भी एपिसोड में 600 kPa तक पहुंचने पर, सेंसर संतृप्त हो जाता है। भारी पकड़ के लिए ग्रिपर बल को कम करें या पाम वैरिएंट (प्रति टैक्सेल कम शिखर दबाव) का उपयोग करें।

स्पर्शनीय इनपुट के साथ नीति प्रशिक्षण

एसीटी या प्रसार नीति में अवलोकन पद्धति के रूप में स्पर्श जोड़ने के लिए, दबाव मानचित्र या एकत्रित स्केलर को शामिल करने के लिए अवलोकन कॉन्फ़िगरेशन का विस्तार करें (total_force_n). दबाव मानचित्र पूर्ण स्थानिक जानकारी प्रदान करता है लेकिन प्रति फ्रेम प्रति सेंसर 64 फ़्लोट जोड़ता है; स्केलर को एकीकृत करना आसान है और बाइनरी समझ गुणवत्ता वाले कार्यों के लिए पर्याप्त है।

# ACT config snippet — add tactile to observation space अवलोकन_कुंजियाँ: - अवलोकन.स्थिति # joint positions - अवलोकन.छवियाँ.कलाई # camera - अवलोकन.स्पर्शीय.कुल_बल_एन # scalar - अवलोकन.स्पर्शीय.दबाव_मानचित्र # optional: full map # Normalize tactile observations स्पर्शनीय_सामान्यीकरण: total_force_n: {मतलब: 2.5, एसटीडी: 1.8} दबाव_मानचित्र: {माध्य: 12.0, एसटीडी: 45.0} # kPa statistics from your dataset

संपूर्ण प्रशिक्षण पूर्वाभ्यास के लिए - जिसमें आपके रिकॉर्ड किए गए डेटासेट से सामान्यीकरण आँकड़ों की गणना करना और केवल-दृष्टि आधार रेखा के विरुद्ध मूल्यांकन करना शामिल है - देखें सीखने का पथ इकाई 5.

कुशल हस्त डेटा संग्रह रणनीतियों पर व्यापक संदर्भ के लिए, देखें निपुण हाथ मार्गदर्शन.