द्वि-मैनुअल डेटा संग्रहण कठिन क्यों है?

एकल-हाथ डेटा संग्रह में, एक खराब प्रदर्शन केवल एक हाथ के प्रक्षेप पथ को प्रभावित करता है। आप 50 डेमो रिकॉर्ड करते हैं, 5 ख़राब डेमो हटाते हैं, और 45 पर प्रशिक्षण लेते हैं। द्वि-मैनुअल डेटा संग्रह में, हैंडऑफ़ बिंदु पर एक गलती अमान्य हो जाती है दोनों उस डेमो के लिए हथियारों के प्रक्षेप पथ एक साथ। विफलता मोड युग्मित हैं.

इस युग्मन के दो व्यावहारिक निहितार्थ हैं। सबसे पहले, आपको अधिक प्रदर्शनों की आवश्यकता है - 50 के बजाय 100 - क्योंकि द्वि-मैन्युअल कार्यों में अधिक भिन्नता होती है और समन्वय संरचना को सीखने के लिए नीति को अधिक उदाहरणों की आवश्यकता होती है। दूसरा, आपको प्रति प्रदर्शन सख्त स्थिरता की आवश्यकता है। एक सिंगल-आर्म डेमो जो कि 80% लगातार अच्छी तरह से ट्रेन करता है। एक द्वि-मैनुअल डेमो जहां एक हाथ सुसंगत है और दूसरा भिन्न है, नीति को समन्वय समय के बारे में कुछ भी उपयोगी नहीं सिखाता है।

कार्यक्षेत्र कवरेज चुनौती भी बड़ी है: आपको फ्रेम में दोनों भुजाओं की आवश्यकता है, और हैंडऑफ़ बिंदु - उच्चतम-जटिलता वाला क्षण - कम से कम एक कैमरे द्वारा विश्वसनीय रूप से कैप्चर किया जाना चाहिए। शुरू करने से पहले अपने कैमरे के कोण की जांच करें और यदि हैंडऑफ़ कार्यस्थल कैमरे के दृश्य क्षेत्र के बाहर होता है तो समायोजित करें।

लेरोबोट द्विमान्य डेटासेट प्रारूप

LeRobot के साथ DK1 एकीकरण दोहरे संयुक्त-राज्य सरणियों के साथ मानक सिंगल-आर्म प्रारूप का विस्तार करता है। डेटासेट में प्रत्येक टाइमस्टेप में शामिल हैं:

# Bimanual dataset observation keys per timestep: अवलोकन.joint_states.left # shape: (6,) — left follower joint angles in radians अवलोकन.संयुक्त_राज्य.सही # shape: (6,) — right follower joint angles in radians अवलोकन.ग्रिपर.बाएं # shape: (1,) — left gripper position [0=open, 1=closed] अवलोकन.ग्रिपर.सही # shape: (1,) — right gripper position अवलोकन.छवियाँ.कार्यस्थान # shape: (H, W, 3) — workspace overhead/front camera अवलोकन.छवियाँ.कलाई # shape: (H, W, 3) — primary wrist camera कार्रवाई.joint_states.left # shape: (6,) — target left joint angles कार्रवाई.संयुक्त_राज्य.सही # shape: (6,) — target right joint angles कार्रवाई.ग्रिपर.बाएं # shape: (1,) कार्रवाई.ग्रिपर.सही # shape: (1,)

सिंगल-आर्म से मुख्य अंतर: एक्शन स्पेस 14-आयामी (6+6 जोड़ + 2 ग्रिपर) है। ACT इसे मूल रूप से संभालता है - आप प्रशिक्षण कॉन्फ़िगरेशन में कार्रवाई आयाम निर्दिष्ट करते हैं और किसी अन्य परिवर्तन की आवश्यकता नहीं होती है।

रिकॉर्डिंग वर्कफ़्लो

स्रोत ~/dk1-env/bin/सक्रिय करें # Start a recording session — 100 episodes for the cube handoff task पायथन -एम लेरोबोट.स्क्रिप्ट्स.रिकॉर्ड \ --रोबोट-पथ ~/dk1-config.yaml \ --रोबोट-प्रकार dk1_bimanual \ --एफपीएस 50 \ --रूट ~/dk1-डेटासेट \ --रेपो-आईडी क्यूब-हैंडऑफ़-v1 \ --संख्या-एपिसोड 100 \ --वार्मअप-समय-एस 3 \ --एपिसोड-समय-एस 30 \ --रीसेट-टाइम-एस 5 # --warmup-time-s: time after pressing record before capture starts (use this to position the cube) # --episode-time-s: max demo length — cube handoff should complete in under 20s; 30s gives buffer # --reset-time-s: time between episodes to return arms to home and reposition the cube

कार्य के लिए अपनी मोटर मेमोरी को गर्म करने के लिए रिकॉर्डिंग सत्र शुरू करने से पहले 10-15 अभ्यास डेमो चलाएँ। पहले 5-10 रिकॉर्ड किए गए डेमो आपके सबसे खराब होंगे - ऐसी उम्मीद है। सत्र के दौरान उनकी समीक्षा करने के लिए न रुकें; पूरे 100 रिकॉर्ड हो जाने के बाद समीक्षा करें और ख़राब डेमो हटाएँ।

द्वि-मैनुअल डेटा के लिए गुणवत्ता जांच सूची

लेरोबोट के रीप्ले व्यूअर का उपयोग करके रिकॉर्डिंग के बाद प्रत्येक डेमो की समीक्षा करें। ऐसे किसी भी डेमो को त्यागें जो इनमें से दो या अधिक मानदंडों में विफल रहता है:

हैंडऑफ़ पर आर्म सिंक दोनों भुजाएं एक साथ इच्छित हैंडऑफ बिंदु से 3 सेमी के भीतर होनी चाहिए। एसिंक हैंडऑफ़ जहां एक हाथ दूसरे का इंतज़ार करता है, नीति को रुकना सिखाता है - जो खराब तरीके से स्थानांतरित होता है।
लगातार आरंभ स्थिति प्रत्येक डेमो के लिए क्यूब को उसी स्थिति के 2 सेमी के भीतर शुरू करना चाहिए। इकाई 1 से टेप चिह्नों का उपयोग करें। प्रारंभिक स्थिति में भिन्नता नीति को मुख्य कार्य सीखने से पहले सामान्यीकरण करने के लिए मजबूर करती है।
साफ़ पकड़ - दोनों भुजाएँ अगले चरण में जाने से पहले प्रत्येक हाथ को एक स्थिर पकड़ हासिल करनी होगी। स्थानांतरण के बीच में फिसलती समझ एक ऐसा प्रक्षेप पथ बनाती है जिसे नीति के लिए विश्वसनीय रूप से दोहराना असंभव है।
घर वापसी मुद्रा प्रत्येक डेमो के अंत में दोनों भुजाओं को साफ़-साफ़ घरेलू मुद्रा में लौट आना चाहिए। मध्य-गति में समाप्त होने वाले डेमो एक डेटासेट बनाते हैं जहां एपिसोड की सीमाएं अस्पष्ट होती हैं।
कार्यस्थल कैमरा कवरेज हैंडऑफ़ क्षण कार्यस्थल कैमरा फ़्रेम में दिखाई देना चाहिए। यदि रोबोट का शरीर दृश्य को अवरुद्ध करता है, तो जारी रखने से पहले कैमरे का कोण समायोजित करें।
लगातार समय पूरे डेमो में एपिसोड की अवधि ±5 सेकंड से अधिक नहीं होनी चाहिए। बड़े समय का अंतर असंगत निष्पादन को इंगित करता है और उच्च एक्शन-स्पेस एन्ट्रापी के साथ एक डेटासेट तैयार करता है।
लक्ष्य डेटासेट का आकार: द्वि-मैन्युअल ACT प्रशिक्षण के लिए 100 डेमो अनुशंसित न्यूनतम है। शोध के नतीजे बताते हैं कि द्वि-हाथ वाले कार्यों के लिए तुलनीय एकल-हाथ वाले कार्यों के लगभग 2× डेटा की आवश्यकता होती है क्योंकि संयुक्त समन्वय संरचना अधिक जटिल होती है और कार्रवाई का स्थान बड़ा होता है। यदि इकाई 5 में प्रशिक्षण के बाद आपकी सफलता दर 40% से कम है, तो अन्य 50 लक्षित डेमो एकत्र करना प्रयास करने वाली पहली चीज़ है।

इकाई 4 पूर्ण जब...

आपके पास LeRobot प्रारूप में 100 रिकॉर्ड किए गए प्रदर्शन हैं ~/dk1-datasets/cube-handoff-v1/. समीक्षा और चयन के बाद, कम से कम 90 डेमो गुणवत्ता जांच सूची में उत्तीर्ण होते हैं। दोनों संयुक्त राज्य सरणियाँ प्रत्येक एपिसोड के लिए 50Hz पर मौजूद हैं। दोनों कैमरा फ़ीड मौजूद हैं और हैंडऑफ़ क्षण सहित पूरा कार्य अनुक्रम दिखाते हैं। आप दौड़ चुके हैं python -m lerobot.scripts.visualize_dataset --repo-id cube-handoff-v1 और पुष्टि की गई कि डेटासेट संरचना वैध है।