الوحدة 6: تشغيل وتحسين سياسة الاستخدام اليدوي — مسار التعلم DK1

إعداد الاستدلال لذراعين

يدير الاستدلال الثنائي شبكة سياسة واحدة تنتج الإجراءات لكلا الذراعين في وقت واحد. تعمل حلقة المراقبة والإجراء بمعدل 50 هرتز - وهو نفس تردد بيانات التدريب الخاصة بك - حيث يقوم كلا الذراعين التابعين بتنفيذ أجزاء الإجراء الخاصة بهما بشكل متزامن.

المصدر ~/dk1-env/bin/activate

# Keep your hand near the E-stop for the first 3 evaluation episodes

بايثون -m lerobot.scripts.eval \ --policy-checkpoint ~/dk1-policies/cube-handoff-v1/checkpoint_XXXXX \ --robot-path ~/dk1-config.yaml \ --الروبوت من نوع dk1_bimanual \ --جهاز كودا \ --عدد حلقات التقييم 10 \ --تسجيل الفيديو \ --output-dir ~/dk1-evals/v1

# Replace XXXXX with your best checkpoint step (from Unit 5 loss curve analysis)
# --record-video saves both arm views as separate mp4 files for failure analysis

بالنسبة لعملية التقييم الأولى، اسمح بتنفيذ السياسة دون انقطاع ما لم يكن هناك تصادم مادي وشيك. غالبًا ما تنتج السياسات ثنائية اليد حركات غير متوقعة في الحلقات الأولى أو الحلقتين لأنها تتكيف مع البيئة الحقيقية. الحلقات 3-10 هي بيانات التقييم ذات مغزى. لاحظ ما إذا كانت السياسة تصل باستمرار إلى نفس مراحل المهمة (الاقتراب، والفهم، والتحويل، والمكان، والمنزل) حتى عندما تفشل في النهاية - النجاح الجزئي هو معلومات تشخيصية.

بروتوكول التقييم الثنائي

استخدم بروتوكولًا منظمًا. التقييم غير الرسمي - "يبدو أنه ناجح" - لا يمكن الاعتماد عليه بالنسبة للسياسات الثنائية لأن النجاحات الجزئية أكثر شيوعًا ويمكن أن تخفي عملية تسليم معطلة بشكل أساسي.

عنصر البروتوكول	مواصفات ثنائية
عدد الحلقات	10 الحد الأدنى؛ 20 للحصول على نتائج عالية الثقة قبل إضافة المزيد من البيانات
موضع البداية للمكعب	موضع ثابت ومُعلَّم بشريط — مثل إعداد تدريب الوحدة 4
إضاءة	يجب أن تتوافق مع ظروف التدريب. حتى فتح النافذة يمكن أن يغير الإضاءة بدرجة كافية للتأثير على كاميرا مساحة العمل
ما يعتبر نجاحا كاملا	يبدأ المكعب من الجانب الأيمن، وينتهي على الجانب الأيسر، ويعود كلا الذراعين إلى وضعية المنزل، ولا يوجد أي اتصال بشري أثناء الحلقة
ما يعتبر نجاحا جزئيا	تم تحقيق الإمساك الصحيح ولكن فشل النقل، أو نجح النقل ولكن الموضع خارج الهدف. سجل هذه بشكل منفصل.
تصنيف الفشل	السجل: (أ) فشل الإمساك، (ب) فشل التسليم - انخفاض النقل من ذراع إلى ذراع، (ج) فشل الموضع، (د) انتهاء المهلة. تعد فئة فشل التسليم (ب) فريدة من نوعها بالنسبة لليدتين وأكثر إفادة للتحسين.
تقرير المقياس	معدل النجاح الكامل (الحلقات مع جميع المراحل الأربع صحيحة). الإبلاغ أيضًا عن معدل النجاح الجزئي. مثال: "4/10 ممتلئ، 7/10 وصل إلى مرحلة التسليم".

أوضاع الفشل الثنائية الشائعة

تختلف أوضاع الفشل هذه عن حالات الفشل أحادية الذراع وتتطلب إصلاحات خاصة بكلتا اليدين:

تصل الأسلحة إلى نقطة التسليم بشكل غير متزامن: ذراع واحدة تصل إلى موضع التسليم وتنتظر؛ والآخر يصل متأخرا. ولم تتعلم السياسة التوقيت النسبي بين الأسلحة. الإصلاح: إضافة 20 عرضًا توضيحيًا حيث يتوقف كلا الذراعين بشكل صريح عند نقطة التسليم لمدة 1-2 ثانية قبل إكمال عملية النقل. وهذا يجعل متطلبات المزامنة واضحة في البيانات.
إسقاط Handoff — يقع المكعب بين الذراعين: الفشل الثنائي الأكثر شيوعًا. تقوم الذراع المتلقية بإغلاق قابضها مبكرًا جدًا أو متأخرًا جدًا بالنسبة لتحرير الذراع المانحة. الإصلاح: اجمع 15 عرضًا توضيحيًا للتسليم بالحركة البطيئة بسرعة 25% على وجه التحديد. إن التوقيت المبالغ فيه يعطي السياسة إشارة أوضح حول تسلسل انتقال الدولة القابض.
تتقارب السياسة حول استراتيجية الذراع الواحدة: تتعلم السياسة إكمال المهمة بذراع واحدة فقط، متجاهلة قدرات الذراع الأخرى. يحدث هذا عندما تكون عروض إحدى الذراعين أكثر اتساقًا من الأخرى. الإصلاح: راجع خطأ عمل كل ذراع من منحنيات التدريب (الوحدة 5) واجمع عروضًا توضيحية إضافية تستهدف مراحل الذراع الأضعف على وجه التحديد.
الاصطدام بين الأذرع: يحاول كلا الذراعين شغل نفس موقع مساحة العمل. يعد هذا حدثًا يتعلق بالسلامة - قم بتمكين تجنب الاصطدام في خادم أجهزة DK1 (collision_avoidance: true في dk1-config.yaml) أثناء التقييم. إن التدريب على العروض التوضيحية التي تحترم دائمًا الفصل الآمن للأذرع سوف يمنع معظم الاصطدامات؛ يتعامل الحارس على مستوى الأجهزة مع حالات الحافة.
إلغاء تزامن المرحلة عند النشر: تنفذ السياسة الإجراءات الصحيحة ولكن ليس بالترتيب الزمني الصحيح - على سبيل المثال، أماكن الذراع اليمنى قبل نقل الذراع اليسرى. هذا عبارة عن قطعة أثرية لتقطيع الإجراء حيث لا تتماشى حدود القطعة مع انتقالات مرحلة المهمة. أصلح: خفض chunk_size من 100 إلى 50 وإعادة التدريب.

حذافة البيانات للتحسين الثنائي

نفس حلقة التحسين التي تعمل مع سياسات الذراع الواحدة تعمل مع السياسات الثنائية - مع إضافة واحدة خاصة بالسياسة الثنائية: استهدف دائمًا أولاً وضع الفشل في تسلسل المهام. لا يمكن تحسين عملية التسليم (المرحلة ب) إذا كان الإمساك (المرحلة أ) لا يزال غير متسق. إصلاح حالات الفشل في ترتيب تسلسل المهام.

يقيم

تشغيل 10 حلقات. تصنيف كل فشل حسب المرحلة (أ/ب/ج/د)

هدف

تحديد مرحلة الفشل الأولى. اجمع ما بين 20 إلى 30 عرضًا توضيحيًا يغطي تلك المرحلة على وجه التحديد

إعادة تدريب

أضف العروض التوضيحية المستهدفة إلى مجموعة البيانات. أعد التدريب من الصفر أو قم بضبط أفضل نقطة تفتيش

يقيم

تشغيل 10 حلقات مرة أخرى. هل تحسن معدل النجاح الكامل؟ الانتقال إلى مرحلة الفشل التالية.

ما هو التالي

لديك الآن خط أنابيب للتعلم ثنائي العمل. إن عملية تسليم المكعب هي الأساس - حيث تعمل نفس البنية على توسيع نطاق المهام الأكثر تعقيدًا بشكل ملحوظ:

التشغيل عن بعد متغير السرعة

التشغيل عن بعد سريع التكيف للمهام الغنية بالاتصال حيث تعمل ردود الفعل القوية على تغيير سرعة الحركة المثالية.

أضف أيديًا بارعة

اجمع بين أذرع DK1 وقبضة Orca للتمتع ببراعة على مستوى الإصبع في المهام التي تتطلب معالجة دقيقة باليد.

قم بتوسيع مجموعة البيانات الخاصة بك

تقنيات لتوسيع نطاق جمع البيانات اليدوية عبر المشغلين والمهام وتكوينات الأجهزة.

شارك نتائجك

انشر معدل نجاحك ومجموعة البيانات والسياسة في منتدى DK1. تعد النتائج الثنائية من بين أكثر النتائج قيمة التي يجمعها المجتمع.

اكتملت الوحدة السادسة عندما...

يكمل DK1 الخاص بك مهمة تسليم المكعب بشكل مستقل بمعدل نجاح كامل لا يقل عن 6/10 في عملية تقييم منظمة. لقد قمت بتصنيف جميع حلقات الفشل حسب المرحلة (أ/ب/ج/د) وحددت المرحلة المسؤولة عن معظم حالات الفشل. لقد شاهدت مقاطع فيديو الفشل ويمكنك توضيح الأخطاء التي حدثت على وجه التحديد. أنت تفهم دولاب الموازنة للبيانات اليدوية جيدًا بما يكفي للتخطيط لتكرار التحسين التالي.

لقد قمت ببناء نظام تعلم روبوت يعمل باليدين.

لقد قمت بتكوين بنية القائد/التابع، وجمعت العروض التوضيحية المتزامنة ذات الذراعين، وقمت بتدريب سياسة منسقة من الصفر، ونشرتها على أجهزة حقيقية. التلاعب باليدين على هذا المستوى هو المكان الذي تعمل فيه مختبرات الأبحاث. الأساس الذي قمت ببنائه هنا يمتد إلى التجميع والطهي والمهام الغنية بالاتصال والتي كانت بعيدة المنال قبل أن تبدأ هذا المسار.

قم بتشغيل وتحسين سياستك اليدوية

إعداد الاستدلال لذراعين

بروتوكول التقييم الثنائي

أوضاع الفشل الثنائية الشائعة

حذافة البيانات للتحسين الثنائي

يقيم

هدف

إعادة تدريب

يقيم

ما هو التالي

التشغيل عن بعد متغير السرعة

أضف أيديًا بارعة

قم بتوسيع مجموعة البيانات الخاصة بك

شارك نتائجك

اكتملت الوحدة السادسة عندما...

لقد قمت ببناء نظام تعلم روبوت يعمل باليدين.