الوحدة 6: التحسين والمشاركة — مسار تعلم LeRobot

دولاب الموازنة البيانات

إن الطريقة الأكثر موثوقية لتحسين سياسة تعلم الروبوتات ليست تغيير النموذج، بل تحسين البيانات. تعتبر دولاب الموازنة البيانات بمثابة حلقة التكرار الأساسية لأي مشروع تعليمي جاد للروبوت:

يقيم

تشغيل 20 تجربة. قياس نسبة النجاح. تصنيف حالات الفشل حسب النوع. لقد فعلت هذا في الوحدة الخامسة.

تحديد وضع الفشل الأساسي

هل هي جودة البيانات (عروض توضيحية غير متسقة)، أو تحول التوزيع (المواقف غير المرئية)، أو سعة النموذج (مسار دقيق بما فيه الكفاية ولكنه خاطئ)؟ تشخيص الوحدة 5 الخاص بك يجيب على هذا.

جمع البيانات المستهدفة

سجل 20-30 عرضًا توضيحيًا يغطي على وجه التحديد نظام الفشل. إذا فشلت السياسة في الكائنات الموجودة على الجانب الأيسر من مساحة العمل، فقم بتسجيل 20 عرضًا توضيحيًا لهذا الموضع المحدد. لا تسجل المزيد مما يعمل بالفعل.

إعادة التدريب وإعادة التقييم

قم بدمج البيانات الجديدة مع مجموعة البيانات الموجودة لديك، وأعد تدريبها، ثم قم بتشغيل التقييم المكون من 20 تجربة مرة أخرى. توقع تحسنًا بنسبة 10 إلى 20 نقطة مئوية في كل دورة عندما يكون التشخيص صحيحًا.

خلط مجموعات البيانات

يمكن لـ LeRobot التدرب على مجموعات بيانات متعددة في وقت واحد، وهو أمر مفيد لدمج بيانات المجموعة المستهدفة مع مجموعة البيانات الأصلية - أو حتى مع مجموعات بيانات المجتمع العامة لنفس المهمة ونوع الروبوت.

# Merge two datasets into a new combined dataset
بايثون -m lerobot.scripts.push_dataset_to_hub \ --dataset-dir ~/lerobot-datasets/pick-place-v1 \ --repo-id $HF_USER/pick-place-v2-merged

# OR train directly on multiple repo IDs
بايثون -م lerobot.scripts.train \ --قانون من نوع السياسة \ --dataset-repo-id "$HF_USER/pick-place-v1,$HF_USER/pick-place-targeted" \ --dataset-repo-id-weights "1.0,2.0" \ --output-dir ~/lerobot-policies/pick-place-v2

# The weights parameter upsamples the targeted data 2x
# relative to the original dataset

الاختلاط مع مجموعات البيانات العامة: قبل الدمج في مجموعة بيانات المجتمع، تأكد من تطابق أبعاد نوع الروبوت ومساحة العمل مع أبعادك. سيؤدي خلط مجموعة بيانات 7-DOF إلى تشغيل تدريب 6-DOF إلى حدوث خطأ صامت في عدم تطابق الشكل. قم دائمًا بفحص info.json من أي مجموعة بيانات تخطط لخلطها.

مشاركة النموذج الخاص بك على HuggingFace Hub

إن مشاركة النموذج المدرّب الخاص بك يجعله متاحًا للمجتمع ويتيح للآخرين استخدام سياستك كنقطة بداية. يمكن لأي شخص تحميل النماذج التي تمت مشاركتها بتنسيق LeRobot القياسي مباشرةً pip install lerobot.

# Push your best checkpoint to HuggingFace Hub
بايثون -m lerobot.scripts.push_policy_to_hub \ --مسار نقطة التفتيش \ ~/lerobot-policies/pick-place-v1/checkpoints/step_050000 \ --repo-id $HF_USER/act-pick-place-so100

# Add a model card (recommended)
# The push command creates a README.md template — fill it in with:
#   - Robot type and task description
#   - Training dataset repo ID
#   - Evaluation success rate
#   - Video of the policy running on your robot

شارك مجموعة البيانات الخاصة بك مع المجتمع

مجموعة البيانات الخاصة بك (التي دفعتها في الوحدة 3) موجودة بالفعل على HuggingFace Hub. لجعله أكثر قابلية للاكتشاف ومفيدًا للآخرين:

أضف أ بطاقة مجموعة البيانات على HuggingFace - قم بوصف المهمة والروبوت وإعدادات التسجيل وعدد الحلقات. هذا هو الشيء الوحيد الأكثر تأثيرًا الذي يمكنك القيام به من أجل اكتشاف مجموعة البيانات.
ضع علامة عليها lerobot، نوع الروبوت الخاص بك (على سبيل المثال، so100)، وفئة مهمتك (على سبيل المثال، pick-and-place).
تقديمه إلى مكتبة مجموعة بيانات SVRC للتنظيم وإدراجها في فهرس المجتمع.

المساهمة بتكوينات الأجهزة مرة أخرى إلى LeRobot

إذا قمت بإضافة تكوين جهاز مخصص لروبوت غير مدعوم في الوحدة 1، ففكر في المساهمة به مرة أخرى في مستودع LeRobot. افتح طلب سحب إلى huggingface/lerobot مع ملف التكوين الخاص بك في lerobot/configs/robot/. يقوم المشرفون بمراجعة مساهمات الأجهزة بسرعة وهذا يفيد بشكل مباشر كل مستخدم مستقبلي لهذا الجهاز.

ما هو التالي: سياسات أكثر قدرة

لديك الآن سير عمل LeRobot الكامل. إليك أين تذهب من هنا:

لغة

SmolVLA — سياسات مشروطة باللغة

قم بالتبديل من ACT إلى SmolVLA عندما تريد أن تستجيب السياسة لتعليمات اللغة الطبيعية ("التقط الكتلة الزرقاء") أو تعميمها عبر المهام. يتطلب ما يقرب من 200 عرض توضيحي وتنسيق موجه أكثر تنظيماً. راجع ورقة SmolVLA وأمثلة LeRobot.

حجم

Pi0Fast — استنتاج VLA عالي السرعة

يعمل Pi0Fast عند استدلال 100 هرتز (مقابل 30 هرتز في ACT)، مما يتيح مهام معالجة أسرع وحلقات تحكم أكثر إحكامًا. فهو يتطلب وحدة معالجة رسومات (GPU) في وقت الاستدلال ولكنه ينتج سلوكًا أكثر براعة على نطاق واسع.

تعميم

سياسات المهام المتعددة

قم بتدريب سياسة واحدة على مهام متعددة باستخدام مجموعة بيانات مختلطة بقيم Task_index مختلفة لكل حلقة. يدعم كل من SmolVLA وPi0Fast التدريب على المهام المتعددة محليًا. راجع وصفة LeRobot متعددة المهام في أمثلة GitHub.

لقد أكملت مسار LeRobot.

لقد قمت بتثبيت LeRobot، وفهمت تنسيق مجموعة البيانات، وسجلت العروض التوضيحية الخاصة بك، وقمت بتدريب سياسة ACT، وقمت بتقييمها بشكل منهجي، وقمت بتشغيل دولاب الموازنة للبيانات. هذا هو سير العمل الكامل لتعلم الروبوتات مفتوح المصدر، وهو نفسه الذي تستخدمه مختبرات الأبحاث وشركات الروبوتات الناشئة في جميع أنحاء العالم.

طرح الأسئلة في المنتدى شارك نتيجتك في Showcase

أسئلة؟ انضم إلى معانقة الوجه Discord #lerobot - المشرفون والمجتمع نشيطون ومرحبون.