الوحدة 5: تقييم سياستك — مسار تعلم LeRobot

تقييم المحاكاة

قم دائمًا بالتقييم في المحاكاة أولاً، حتى لو كان لديك روبوت حقيقي. يعد تقييم Sim سريعًا وآمنًا ويمنحك رقمًا أساسيًا قابلاً للتكرار يمكنك مقارنته بعد إعادة التدريب.

المصدر ~/lerobot-env/bin/activate

# Evaluate your best checkpoint (replace step_050000 with your checkpoint step)
بايثون -m lerobot.scripts.eval \ --اسم أو مسار السياسة المدربة مسبقًا \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --env.name Gym_pusht/PushT-v0 \ --eval.n-الحلقة 20 \ --eval.use-async-envs خطأ

# Outputs: success_rate, mean_reward, episode_videos/

ماذا تتوقع: يجب أن تحقق السياسة المدربة جيدًا بشأن 50 عرضًا توضيحيًا معدل نجاح يتراوح بين 60 و85% في MuJoCo. أقل من 40% يشير إلى وجود مشكلة في جودة مجموعة البيانات. ما يزيد عن 85% يعني أن المهمة سهلة للغاية أو أن بيئة بطاقة sim متسامحة للغاية - جرّب بديلاً أصعب.

قائمة التحقق الحقيقية لسلامة الروبوت

إذا كنت تقوم بالتقييم على روبوت حقيقي، فاطلع على قائمة المراجعة هذه قبل طرحك لأول مرة. ومن الممكن أن تتحرك السياسة غير المختبرة بطرق غير متوقعة.

امسح مساحة العمل من أي كائنات ليست جزءًا من المهمة. لقد تعلمت السياسة التصرف في سياق مرئي محدد - فالأشياء غير المتوقعة يمكن أن تسبب سلوكًا غير منتظم.
ابق عند محطة الطوارئ (E-stop) أو كن مستعدًا للضغط على Ctrl+C لجلسة التقييم بأكملها. لا تبتعد عن سياسة التشغيل.
ابدأ بسرعة محدودة بحد أقصى 50%. قلل إلى 30% إذا كانت التجربة الأولى تبدو متشنجة أو غير دقيقة.
ضع الكائنات لتتناسب تمامًا مع إعداد مساحة عمل التدريب الخاصة بك. استخدم نفس زاوية الكاميرا ونفس الإضاءة ونفس ألوان الكائنات. يعد تحول التوزيع هو السبب الأكثر شيوعًا لمعدل النجاح الواقعي الصفري.
لا تقم أبدًا بالتقييم فوق حدود التوقف المادية لمفاصل الروبوت الخاصة بك. تحقق من ذلك في تكوين الروبوت الخاص بك قبل التشغيل الأول.

بروتوكول تقييم الروبوت الحقيقي

قم بإجراء 20 تجربة بالضبط. ويمنحك هذا عينات كافية للحصول على تقدير موثوق لمعدل النجاح (±10% عند مستوى ثقة 95%). قم بتسجيل كل تجربة على الفيديو - ستحتاج إلى اللقطات لتشخيص أوضاع الفشل.

# Run the policy on your real robot
بايثون -م lerobot.scripts.control_robot \ --robot-path lerobot/configs/robot/so100.yaml \ --تقييم وضع التحكم \ --اسم أو مسار السياسة المدربة مسبقًا \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --eval.n-الحلقة 20 \ --تسجيل الفيديو 1

بعد كل تجربة، سجلها يدويًا: 1 للنجاح الكامل للمهمة، 0 لأي فشل (فهم جزئي، قطرات، يخطئ). معدل نجاحك هو المجموع مقسوما على 20.

تشخيص أوضاع الفشل

شاهد تسجيلات الفيديو الخاصة بك وقم بتصنيف حالات الفشل. تقع معظم حالات الفشل في واحدة من ثلاث فئات:

جودة البيانات

مسار اقتراب غير متناسق - لا تلتزم الذراع تمامًا بالقبضة

يتم حساب المتوسط عبر استراتيجيات فهم متعددة في بيانات التدريب الخاصة بك. يحدث هذا عندما تقترب بعض المظاهرات من اليسار والبعض الآخر من اليمين، أو عندما يكون توقيت إغلاق المقبض غير متناسق. الإصلاح: إعادة التسجيل باستخدام إستراتيجية واحدة متعمدة في جميع العروض التوضيحية.

سعة النموذج

يبدو المسار معقولًا ولكن الدقة متوقفة بمقدار 1-2 سم باستمرار

يتعلم النموذج السلوك الصحيح ولكنه يفتقر إلى القدرة على الدقة. يحدث هذا عندما يكون حجم القطعة قصيرًا جدًا (أفق التخطيط غير كافٍ) أو عندما يكون حجم dim_feedforward صغيرًا جدًا. إصلاح: زيادة حجم القطعة إلى 150، وإعادة التدريب. أو قم بإضافة المزيد من العروض التوضيحية المتنوعة لتنظيم الشبكة.

تحول التوزيع

يعمل بشكل مثالي في بعض المواقف، ويفشل تمامًا في مواقف أخرى

تكون مواضع الكائنات أثناء التقييم خارج نطاق توزيع بيانات التدريب الخاصة بك. ولم تشهد السياسة تلك المواقف من قبل. الإصلاح: جمع المزيد من العروض التوضيحية بمواضع كائنات أكثر تنوعًا، أو تقييد تقييمك بالمواضع الممثلة جيدًا في بيانات التدريب الخاصة بك.

اكتملت الوحدة الخامسة عندما...

لقد قمت بإجراء 20 تجربة تقييم (في شريحة الاتصال أو على الروبوت الحقيقي الخاص بك) وقمت بقياس معدل النجاح. لقد شاهدت جميع مقاطع الفيديو الخاصة بوضع الفشل وحددت ما إذا كان الفشل الأساسي هو جودة البيانات أو سعة النموذج أو تحول التوزيع. لقد قمت بتدوين هذا التشخيص، وسوف تستخدمه لتوجيه عملية جمع البيانات الخاصة بك في الوحدة 6.