الوحدة 6: النشر والتحسين — مسار التعلم OpenArm

تشغيل الاستدلال على الذراع الحقيقي

النشر يعني تشغيل نقطة التفتيش المدربة الخاصة بك في الوقت الفعلي، وتغذية الكاميرا الحية والملاحظات المشتركة في الشبكة وتنفيذ إجراءات الإخراج على الذراع الفعلي. يتعامل البرنامج النصي للاستدلال مع حلقة إجراء المراقبة عند 50 هرتز.

المصدر ~/openarm-env/bin/activate

# Make sure ROS 2 is running (real hardware mode, from Unit 1)

بايثون -m lerobot.scripts.eval \ --policy-checkpoint ~/openarm-policies/pick-and-place-v1/checkpoint_XXXXX \ --جهاز كودا \ --عدد حلقات التقييم 10 \ --تسجيل الفيديو \ --output-dir ~/openarm-evals/v1

# Replace XXXXX with your best checkpoint step number from Unit 5
# --record-video saves each episode as an mp4 for review

في أول عملية نشر، أبقِ يدك بالقرب من نقطة التوقف الإلكترونية الفعلية. قد تقوم السياسة التي تم نشرها حديثًا أحيانًا بحركات غير متوقعة أثناء استعدادها لبيئة الأجهزة الحقيقية. وهذا أمر طبيعي في أول 2-3 حلقات. وبعد ذلك يجب أن يستقر السلوك.

للحصول على إرشادات النشر والإنتاج الشاملة بما في ذلك مظاريف الأمان ومؤقتات المراقبة، راجع دليل إنتاج OpenArm.

منهجية التقييم

لا تقم بتقييم سياستك بشكل غير رسمي. استخدم بروتوكولًا منظمًا - فهو الطريقة الوحيدة لمعرفة ما إذا كان التغيير الذي تجريه (المزيد من البيانات، نقاط تفتيش مختلفة، إطار مهام مختلف) أدى بالفعل إلى تحسين الأداء:

عنصر البروتوكول	مواصفة
عدد الحلقات لكل تقييم	10 كحد أدنى، 20 للحصول على نتائج عالية الثقة
موضع بداية الكائن	مُثَبَّت. استخدم علامات الشريط. نفس الموقف في كل حلقة
نوع الكائن	نفس الشيء مثل التدريب. يجب أن تتوافق الإضاءة مع ظروف التدريب.
ما يعتبر نجاحا	تم وضع الجسم على مسافة 3 سم من الهدف. يعود الذراع إلى المنزل. لا يوجد تدخل بشري أثناء الحلقة.
تصنيف الفشل	نوع فشل السجل: فهم مفقود / كائن تم إسقاطه / هدف خاطئ / مهلة. هذا يخبرك بما يجب إصلاحه.
تقرير المقياس	معدل النجاح = الحلقات الناجحة / إجمالي الحلقات. تقرير يتضمن عدد الحلقات (على سبيل المثال، "7/10 = 70%").

دولاب الموازنة للبيانات: كيف تتحسن

إن السياسة التي تنجح بنسبة 7/10 مرات هي بداية جيدة - ولكن الطريق إلى 9/10 أو ما بعده يمر عبر دولاب الموازنة للبيانات. هذه هي الحلقة الأساسية لتعلم الروبوت في الإنتاج:

يجمع

سجل المظاهرات، بما في ذلك حالات الفشل التي تواجهها سياستك الحالية

يدرب

أعد التدريب (أو الضبط الدقيق) على مجموعة البيانات الموسعة الخاصة بك مع إضافة العروض التوضيحية الجديدة

يقيم

قم بتشغيل بروتوكول التقييم المنظم. هل تحسنت نسبة النجاح؟ ما هي أوضاع الفشل المتبقية؟

تحليل

شاهد فيديوهات الفشل. حدد الحالة المحددة التي تتعطل فيها السياسة. جمع البيانات المستهدفة هناك.

البصيرة الرئيسية لدولاب الموازنة: البيانات المستهدفة تتفوق على البيانات العشوائية. بدلاً من تسجيل 50 عرضًا عشوائيًا آخر، شاهد مقاطع الفيديو الخاصة بالفشل وحدد اللحظة التي تسوء فيها الأمور. قم بتسجيل 20 عرضًا توضيحيًا يغطي تلك الحالة الصعبة على وجه التحديد (على سبيل المثال، الإمساك بحافة مساحة العمل، أو الكائن بزاوية غير عادية). سوف يتحسن معدل نجاحك بشكل أسرع مع 20 عرضًا تجريبيًا مستهدفًا بدلاً من 50 عرضًا عشوائيًا.

أوضاع الفشل الشائعة وكيفية إصلاحها

تجاوز الذراع موضع الإمساك: أجزاء إجراءات السياسة كبيرة جدًا أو أن بياناتك بها تباين كبير في السرعة. قم بتسجيل 10 عروض توضيحية أخرى بسرعة بطيئة بالقرب من نقطة الإمساك. أو تقليل chunk_size من 100 إلى 50 في تكوين التدريب.
تنجح الذراع في التعامل مع كائن التدريب ولكنها تفشل في التعامل مع كائنات مختلفة قليلًا: كانت بيانات التدريب الخاصة بك تفتقر إلى تنوع موضع الكائن. قم بتسجيل 20 عرضًا توضيحيًا للكائن في 5 مواضع مختلفة ضمن دائرة نصف قطرها 10 سم. وهذا يعلم السياسة التعميم.
تجمد السياسة أو تنتج حركات متكررة: متغير نمط CVAE ينهار. وهذا يعني في كثير من الأحيان أن مجموعة البيانات الخاصة بك بها الكثير من التباين - لا يمكن للنموذج العثور على نمط ثابت. تحقق من وجود عروض توضيحية مختلطة (عوامل تشغيل مختلفة، وإطارات مهام مختلفة) وقم بتنظيف مجموعة البيانات الخاصة بك.

اكتملت الوحدة السادسة عندما...

تُكمل ذراعك مهمة الانتقاء والمكان بشكل مستقل 7 من أصل 10 مرات في عملية تقييم منظمة. لقد شاهدت مقاطع الفيديو الثلاثة الفاشلة وحددت الخطأ الذي حدث. أنت تفهم دولاب الموازنة للبيانات جيدًا بما يكفي للتخطيط لتكرار التحسين التالي. هذه هي نهاية المسار المنظم - ولكنها بداية ممارسة تعلم الروبوت الخاص بك.

لقد فعلت ذلك.

لقد انتقلت من فتح علبة الروبوت إلى التدريب ونشر سياسة التعلم بالتقليد الحقيقي. وهذا يضعك في المقدمة بنسبة 99% من الأشخاص الذين لمسوا ذراع الروبوت على الإطلاق. ما قمت بإنشائه هنا - إعداد التشغيل عن بعد، وخط البيانات، وسير عمل التدريب - يتناسب مع أي مهمة وأي جهاز.

ما هو التالي

لديك الأساس. إليك أين تذهب من هنا:

النشر والتحسين