डेटा संग्रहण

ह्यूमनॉइड डेटा संग्रह मूल रूप से आर्म-ओनली वर्कफ़्लोज़ से अलग है। K1 में 22+ डिग्री की स्वतंत्रता है, इसे टेलीऑपरेशन के दौरान संतुलन बनाए रखना चाहिए, और सिंक्रनाइज़ मल्टी-मोडल कैप्चर की आवश्यकता होती है। यह पृष्ठ चुनौतियों, विधियों, डेटासेट प्रारूप और सुरक्षा प्रोटोकॉल को शामिल करता है।

ह्यूमनॉइड डेटा संग्रहण चुनौतियाँ

पूर्ण आकार के ह्यूमनॉइड पर उच्च गुणवत्ता वाले प्रदर्शनों को एकत्रित करने के लिए उन चुनौतियों का समाधान करने की आवश्यकता होती है जो डेस्कटॉप हथियारों पर मौजूद नहीं हैं।

टेलीऑपरेशन के दौरान संतुलन

K1 को पूरे शरीर का संतुलन बनाए रखना चाहिए जबकि ऑपरेटर हथियारों को नियंत्रित करता है। हाथ की हरकतें द्रव्यमान के केंद्र को स्थानांतरित कर देती हैं, जिससे लोकोमोशन नियंत्रक को लगातार क्षतिपूर्ति करने की आवश्यकता होती है। रैपिड आर्म कमांड रोबोट को अस्थिर कर सकते हैं।

📊

उच्च आयामी अवस्था

पूर्ण-शरीर संयुक्त स्थिति में 22 डीओएफ प्लस आईएमयू, हेड पोज़ और वैकल्पिक हाथ स्थिति शामिल है - प्रति टाइमस्टेप 30+ आयाम। डेटासेट फ़ाइलें केवल आर्म डेटासेट की तुलना में काफी बड़ी होती हैं। भंडारण योजना आवश्यक है.

📷

मल्टी-कैमरा सिंक्रोनाइज़ेशन

ह्यूमनॉइड कार्यों के लिए आमतौर पर एगोसेंट्रिक (सिर पर लगे) और एक्सोसेंट्रिक (बाहरी) कैमरों की आवश्यकता होती है। 50 हर्ट्ज़+ पर संयुक्त टेलीमेट्री के साथ एकाधिक वीडियो स्ट्रीम को सिंक्रनाइज़ करने के लिए सावधानीपूर्वक पाइपलाइन डिज़ाइन की आवश्यकता होती है।

👥

संचालक थकान

वीआर-आधारित संपूर्ण-बॉडी टेलीऑपरेशन शारीरिक रूप से मांग वाला है। प्रति ऑपरेटर 30 मिनट से अधिक लंबे सत्र प्रदर्शन की गुणवत्ता को काफी हद तक ख़राब कर देते हैं। विस्तारित संग्रह अभियानों में ऑपरेटर रोटेशन की योजना बनाएं।

ह्यूमनॉइड्स के लिए टेलीऑपरेशन विधियाँ

अपर-बॉडी टेलीऑपरेशन के लिए दो प्राथमिक विधियाँ समर्थित हैं। गति को हमेशा गेमपैड से या स्वायत्त रूप से वेग कमांड के माध्यम से नियंत्रित किया जाता है।

वीआर होल-बॉडी टेलीऑपरेशन अनुशंसित

ऑपरेटर के सिर और हाथ की मुद्रा को ट्रैक करने के लिए मेटा क्वेस्ट 3 या समान वीआर हेडसेट का उपयोग करता है। K1 के सिर और बांह के जोड़ वास्तविक समय में ऑपरेटर की गतिविधियों को प्रतिबिंबित करते हैं। सबसे स्वाभाविक और अभिव्यंजक प्रदर्शन प्रदान करता है।

स्थापित करना: क्वेस्ट 3 + स्टीमवीआर, के1_वीआर_टेलीओप आरओएस2 नोड, ऑपरेटर हाथ ट्रैकिंग के लिए दस्ताने पहनता है।

विलंबता: ~20 एमएस हेड, ~40 एमएस आर्म एंड-टू-एंड।

इसके लिए सर्वोत्तम: हेर-फेर कार्य, चुनना-और-स्थान, पूरे शरीर का लोको-हेरफेर।

नेता-अनुयायी ऊपरी शरीर विकसित

एक दूसरा मानव-स्केल एक्सोस्केलेटन या लीडर आर्म सिस्टम अनुयायी K1 के ऊपरी शरीर को प्रतिबिंबित करता है। संयुक्त कोण सीधे नेता से अनुयायी तक मैप किए जाते हैं। VR हार्डवेयर की आवश्यकता नहीं है.

स्थापित करना: एक संगत लीडर आर्म सिस्टम की आवश्यकता है (उदाहरण के लिए, ओपनआर्म बाइमैनुअल किट या कस्टम एक्सोस्केलेटन)। पार्टनर कॉन्फ़िगरेशन के लिए एसवीआरसी से संपर्क करें।

इसके लिए सर्वोत्तम: सटीक द्वि-मैन्युअल हेरफेर जहां ट्रैकिंग सटीकता महत्वपूर्ण है।

टेलीऑपरेशन के दौरान हरकत

ऊपरी-बॉडी टेलीऑपरेशन को आमतौर पर गेमपैड-नियंत्रित लोकोमोशन के साथ जोड़ा जाता है। ऑपरेटर चलने की गति को नियंत्रित करने के लिए एक वायरलेस गेमपैड का उपयोग करता है जबकि वीआर सिस्टम हथियारों और सिर को नियंत्रित करता है:

# Launch combined teleop: VR for upper body + gamepad for locomotion
ros2 launch k1_teleop k1_combined_teleop.launch.py \
  vr_device:=quest3 \
  gamepad:=xbox \
  robot_ip:=192.168.10.102

संपूर्ण-बॉडी डेटासेट प्रारूप (30+ DoF)

प्रत्येक एपिसोड सिंक्रनाइज़ संयुक्त स्थिति, कैमरा फ़्रेम और मेटाडेटा को रिकॉर्ड करता है। यह प्रारूप LeRobot और HuggingFace डेटासेट के साथ संगत है।

प्रकरण संरचना

episode_000001/
  joint_states.npy      # [T, 44] — positions, velocities, torques for 22 joints
  imu.npy               # [T, 6]  — accel (3) + gyro (3) from torso IMU
  head_pose.npy         # [T, 2]  — yaw and pitch in radians
  head_cam.mp4          # 1280x720 @ 30 fps, head-mounted egocentric
  left_cam.mp4          # 1280x720 @ 30 fps, left wrist
  right_cam.mp4         # 1280x720 @ 30 fps, right wrist
  external_cam.mp4      # 1920x1080 @ 30 fps, fixed external view
  timestamps.npy        # [T] unix timestamps for joint_states
  metadata.json         # task name, operator, duration, success label

संयुक्त अवस्था स्कीमा (22 जोड़ × 2 मान प्रत्येक)

# joint_states.npy shape: [timesteps, 44]
# Columns: [q0_pos, q0_vel, q1_pos, q1_vel, ..., q21_pos, q21_vel]

# Joint index mapping:
# 0-5:   Left leg (hip_pitch, hip_roll, hip_yaw, knee, ankle_pitch, ankle_roll)
# 6-11:  Right leg (same order)
# 12:    Waist (yaw)
# 13:    Head yaw
# 14:    Head pitch
# 15-21: Left arm (shoulder_pitch, shoulder_roll, shoulder_yaw,
#                   elbow_pitch, wrist_pitch, wrist_roll, wrist_yaw)
# 22-28: Right arm (same order)
# Note: total 29 joints in extended K1 config; base K1 has 22

k1_agent.py के साथ एक सत्र रिकॉर्ड करना

# Start the platform agent (streams telemetry to RoboticsCenter)
python k1_agent.py \
  --robot-ip 192.168.10.102 \
  --platform-url https://fearless-backend-533466225971.us-central1.run.app \
  --record \
  --task "pick up red block" \
  --cameras head_cam,left_wrist,right_wrist,external

# Episodes auto-numbered and saved to ./recordings/

लेरोबोट प्रारूप में कनवर्ट करें

python convert_k1_to_lerobot.py \
  --input-dir ./recordings/ \
  --output-dir ./dataset/ \
  --repo-id your-username/k1-pick-place

डेटा संग्रहण के दौरान सुरक्षा प्रोटोकॉल

  • हर समय स्पॉटटर की आवश्यकता होती है - एक समर्पित व्यक्ति रोबोट की निगरानी करता है और ई-स्टॉप रखता है। टेलीऑपरेटर एक साथ सुरक्षा की निगरानी नहीं कर सकता।
  • 3 मीटर × 3 मीटर स्पष्ट परिधि - किसी भी लाइव सत्र के दौरान परिचालन क्षेत्र में कोई दर्शक नहीं, कोई केबल नहीं, कोई उपकरण नहीं।
  • एपिसोड की अवधि सीमा: 60 सेकंड - एपिसोड छोटे रखें. छोटे एपिसोड को गुणवत्ता-फ़िल्टर करना आसान होता है और लंबे समय तक संचालन से जोखिम कम होता है।
  • 30 मिनट का ऑपरेटर रोटेशन - वीआर सत्रों में हर 30 मिनट में टेलीऑपरेटर्स को घुमाएँ। थकान प्रदर्शन की गुणवत्ता को ख़राब करती है और त्रुटि दर को बढ़ाती है।
  • किसी भी अस्थिरता पर तुरंत निरस्त करें और DAMP दर्ज करें - यदि K1 कोई अप्रत्याशित दोलन या बहाव दिखाता है, तो ई-स्टॉप दबाएं और DAMP से पुनरारंभ करें। मैन्युअल रूप से स्थिर करने का प्रयास न करें.
  • सभी घटनाओं को लॉग करें - किसी भी गिरावट, निकट-गिरावट, या निरस्त प्रकरणों का दस्तावेजीकरण करें। यह डेटा डेटासेट गुणवत्ता फ़िल्टरिंग और सुरक्षा प्रक्रियाओं में सुधार के लिए उपयोगी है।

एपिसोड गुणवत्ता चेकलिस्ट

अपने प्रशिक्षण डेटासेट में जोड़ने से पहले प्रत्येक एपिसोड की समीक्षा करें। खराब गुणवत्ता वाले प्रदर्शन आपकी नीति को ख़राब कर देंगे।

  • कार्य शुरू से अंत तक सफलतापूर्वक पूरा किया गया (प्रशिक्षण डेटा में कोई आंशिक पूर्णता नहीं)
  • रोबोट ने पूरे समय स्थिर संतुलन बनाए रखा - कोई ठोकर, दोलन या क्षतिपूर्ति झटके नहीं
  • सभी कैमरा स्ट्रीम में पूर्ण फ़्रेम होते हैं और कोई भी खंड गिरा हुआ नहीं होता है
  • संयुक्त राज्य टाइमस्टैम्प निरंतर हैं (कोई अंतराल नहीं> 40 हर्ट्ज रिकॉर्डिंग पर 25 एमएस)
  • प्रदर्शन सुचारु और सुविचारित है - जल्दबाजी नहीं, अति सुधार नहीं
  • वस्तु और कार्य दृश्य कम से कम दो कैमरा स्ट्रीम में दिखाई देते हैं
डेटा संग्रहण पाइपलाइन अवलोकन →

क्या आप अपनी पहली ह्यूमनॉइड नीति को प्रशिक्षित करने के लिए तैयार हैं?

एक बार जब आप गुणवत्ता प्रदर्शन एकत्र कर लेते हैं, तो पूर्ण ट्रेन-एंड-डिप्लॉय वर्कफ़्लो के लिए बूस्टर K1 सीखने के पथ पर जाएँ।