خيارات السياسة
تقدم LeRobot ثلاثة بنيات سياسية جاهزة للإنتاج. اختر واحدًا قبل بدء التدريب — لا يمكنك التبديل في منتصف التشغيل.
ACT
عمل المحولات المقطعة. الأفضل للتلاعب بذراع واحدة ببراعة. يتدرب خلال 1-3 ساعات على وحدة معالجة الرسومات. المعلمات المفرطة التي يمكن التنبؤ بها. استخدم هذا.
سياسة الانتشار
دقة أعلى في المهام الدقيقة ولكن التدريب والاستنتاج أبطأ بمقدار 3 إلى 5 مرات. استخدمه بعد أن يكون لديك خط أساس ACT فعال.
سمولفلا
لغة VLA مكيفة. يُستخدم عندما تتطلب مهمتك تعليمات باللغة الطبيعية أو تعميم المهام المتعددة. يتطلب المزيد من البيانات.
أمر التدريب ACT
يستبدل $HF_USER/pick-place-v1 باستخدام معرف الريبو الخاص بمجموعة البيانات من الوحدة 3.
المعلمات الفائقة الموصى بها للانتقاء والمكان بذراع واحدة
| المعلمة | مُستَحسَن | لماذا |
|---|---|---|
| num_steps | 50000 | يكفي لـ 50-100 عرض توضيحي للاختيار والمكان البسيط. قم بالزيادة إلى 80 ألفًا إذا وصلت هضبة الخسارة متأخرة. |
| Batch_size | 32 | معيار لمجموعات البيانات أحادية الذراع. قلل إلى 16 إذا نفدت ذاكرة وحدة معالجة الرسومات. |
| Chunk_size | 100 | خطط ACT 100 خطوة للأمام. بمعدل 30 إطارًا في الثانية، يكون هذا حوالي 3.3 ثانية — وهو أفق تخطيط جيد للاختيار والمكان. |
| n_action_steps | 100 | يجب أن يتطابق معchunk_size. يقلل من تردد الاستدلال ويسهل التنفيذ. |
| kl_weight | 10 | ليروبوت الافتراضي. لا تتغير إلا إذا ظل L_kl بالقرب من الصفر بعد 20 ألف خطوة. |
| lr | 1ه-5 | LeRobot الافتراضي لـ ACT. ينخفض إلى 5e-6 إذا تأرجحت خسارة إعادة الإعمار بدلاً من التقارب. |
قراءة سجلات التدريب
تتم طباعة سجلات التدريب إلى المحطة الطرفية وإلى TensorBoard. قم بتشغيل TensorBoard في المحطة الثانية:
ثم افتح http://localhost:6006 في المتصفح الخاص بك. شاهد هذه المنحنيات:
الخسارة/إعادة الإعمار (L_recon)
إشارة التدريب الأولية. يجب أن ينخفض من ~2.5–3.5 إلى أقل من 0.1 بمقدار 50000 خطوة. عادةً ما يعني الوصول إلى مستوى أعلى من 0.15 بعد 40000 خطوة أن مجموعة البيانات الخاصة بك بها الكثير من التباين - قم بمراجعة ممارسات العرض التوضيحي الجيدة للوحدة 3 وفكر في تسجيل عروض توضيحية أكثر اتساقًا.
القلعة / كوالالمبور (L_kl)
يرتفع ببطء من قريب من 0 إلى 5-20. هذا هو السلوك المتوقع — يتعلم CVAE أسلوبًا مدمجًا للتضمين. إذا تجاوزت 40، فإن مظاهراتك تحتوي على الكثير من التنوع السلوكي. إذا ظل بالقرب من 0 بعد 20 ألف خطوة، فإن CVAE لا يتعلم؛ زيادة الوزن إلى 20.
القطار/الخسارة (الخسارة الكاملة)
L_recon + kl_weight × L_kl. سيطر عليها L_recon في التدريب المبكر. ينبغي أن تنخفض رتابة. تشير الخسارة الإجمالية التي ترتفع بعد الانخفاض الأولي إلى أن انخفاض معدل التعلم يعد شديدًا للغاية - تحقق من تكوين المجدول.
إدارة نقاط التفتيش
نقاط التفتيش تحفظ كل 5000 خطوة ل ~/lerobot-policies/pick-place-v1/checkpoints/. لا تفترض أن نقطة التفتيش النهائية هي الأفضل. يمكن أن تبالغ السياسة في أعداد الخطوات العالية، خاصة مع مجموعات البيانات الصغيرة.
بعد التدريب، حدد أفضل نقطة تفتيش لديك: وهي الخطوة التي يصل فيها L_reconstruction إلى الحد الأدنى قبل البدء في الهضبة. بالنسبة لـ 50 عرضًا توضيحيًا، يحدث هذا عادةً في نطاق 35000-50000 خطوة. احفظ رقم الخطوة هذا، حيث ستستخدمه في الوحدة الخامسة.
اكتملت الوحدة الرابعة عندما...
أكمل التدريب 50000 خطوة وتم حفظ نقاط التفتيش ~/lerobot-policies/pick-place-v1/checkpoints/. خسارة L_reconstruction النهائية أقل من 0.1. لقد حددت أفضل خطوة نقطة تفتيش لديك بناءً على منحنيات الخسارة. أنت تفهم ما يفعله L_kl في التدريب الخاص بك. أنت جاهز لتقييم السياسة في الوحدة الخامسة.