क्यों डेटा गुणवत्ता डेटा मात्रा को मात देती है
1,000 उच्च-गुणवत्ता, विविध प्रदर्शनों का एक डेटासेट अक्सर 10,000 शोर वाले प्रदर्शनों से बेहतर प्रदर्शन करता है। गुणवत्ता के मुद्दे - सेंसर डीसिंक्रनाइज़ेशन, कार्रवाई असंतोष, सफलताओं के साथ मिश्रित कार्य विफलताएं, और असंगत लेबलिंग - प्रशिक्षित नीतियों में फैलती हैं और रहस्यमय तैनाती विफलताओं का कारण बनती हैं।
15 सूत्रीय गुणवत्ता जांच सूची
एकत्रित एपिसोड के प्रत्येक बैच को अपने प्रशिक्षण सेट में जोड़ने से पहले इन जांचों को लागू करें।
- सेंसर टाइमस्टैम्प 10ms के भीतर सिंक्रनाइज़ हो गए
- कोई कैमरा फ़्रेम नहीं गिराया गया (फ़्रेम संख्या बनाम अवधि की जाँच करें)
- भौतिक संयुक्त सीमा के भीतर कार्रवाई के मूल्य
- माध्य चरण आकार से >2σ कोई क्रिया असंततता नहीं
- सफलता/विफलता लेबल दूसरे समीक्षक द्वारा सत्यापित
- कार्य अपेक्षित अवधि सीमा के भीतर पूरा किया गया
- अंतिम डेटासेट में कोई ऑपरेटर स्वयं-सुधार नहीं करता
- महत्वपूर्ण चरणों के दौरान कैमरा बंद नहीं होता
- प्रोप्रियोसेप्शन आदेशित क्रियाओं से मेल खाता है
- ग्रिपर की स्थिति सही समय पर परिवर्तित होती है
- कोई डुप्लिकेट एपिसोड नहीं
- मेटाडेटा फ़ील्ड पूर्ण (कार्य आईडी, ऑपरेटर, दिनांक)
- एपिसोड लक्ष्य प्रारूप में संग्रहीत (RLDS/LeRobot)
- अपेक्षित वितरण के भीतर बैच आँकड़े
- रैंडम सैंपल की मौके पर ही जांच की गई