الوحدة 4: تدريب السياسة — مسار تعلم LeRobot

خيارات السياسة

تقدم LeRobot ثلاثة بنيات سياسية جاهزة للإنتاج. اختر واحدًا قبل بدء التدريب — لا يمكنك التبديل في منتصف التشغيل.

الموصى بها لهذا المسار

ACT

عمل المحولات المقطعة. الأفضل للتلاعب بذراع واحدة ببراعة. يتدرب خلال 1-3 ساعات على وحدة معالجة الرسومات. المعلمات المفرطة التي يمكن التنبؤ بها. استخدم هذا.

سياسة الانتشار

دقة أعلى في المهام الدقيقة ولكن التدريب والاستنتاج أبطأ بمقدار 3 إلى 5 مرات. استخدمه بعد أن يكون لديك خط أساس ACT فعال.

سمولفلا

لغة VLA مكيفة. يُستخدم عندما تتطلب مهمتك تعليمات باللغة الطبيعية أو تعميم المهام المتعددة. يتطلب المزيد من البيانات.

أمر التدريب ACT

يستبدل $HF_USER/pick-place-v1 باستخدام معرف الريبو الخاص بمجموعة البيانات من الوحدة 3.

المصدر ~/lerobot-env/bin/activate بايثون -م lerobot.scripts.train \ --قانون من نوع السياسة \ --dataset-repo-id $HF_USER/pick-place-v1 \ --output-dir ~/lerobot-policies/pick-place-v1 \ --تجاوزات التكوين \ Training.num_steps=50000 \ Training.eval_freq=5000 \ Training.save_freq=5000 \ التدريب.batch_size=32 \ Policy.chunk_size=100 \ Policy.n_action_steps=100

# Add --device cuda if you have a GPU (strongly recommended)
# Checkpoints save every 5k steps to ~/lerobot-policies/pick-place-v1/
# Start this before sleep — it can run unattended

وقت تدريب GPU مقابل CPU: على RTX 3090 (24 جيجابايت)، تستغرق 50000 خطوة حوالي 60-80 دقيقة. على RTX 3080 (10 جيجابايت)، حوالي 90-120 دقيقة. على وحدة المعالجة المركزية، توقع من 8 إلى 12 ساعة. تبلغ تكلفة خيارات وحدة معالجة الرسومات السحابية (Lambda Labs وVast.ai) ما يتراوح بين 0.50 إلى 1.50 دولارًا في الساعة مقابل الأجهزة المطلوبة.

المعلمات الفائقة الموصى بها للانتقاء والمكان بذراع واحدة

المعلمة	مُستَحسَن	لماذا
num_steps	50000	يكفي لـ 50-100 عرض توضيحي للاختيار والمكان البسيط. قم بالزيادة إلى 80 ألفًا إذا وصلت هضبة الخسارة متأخرة.
Batch_size	32	معيار لمجموعات البيانات أحادية الذراع. قلل إلى 16 إذا نفدت ذاكرة وحدة معالجة الرسومات.
Chunk_size	100	خطط ACT 100 خطوة للأمام. بمعدل 30 إطارًا في الثانية، يكون هذا حوالي 3.3 ثانية — وهو أفق تخطيط جيد للاختيار والمكان.
n_action_steps	100	يجب أن يتطابق معchunk_size. يقلل من تردد الاستدلال ويسهل التنفيذ.
kl_weight	10	ليروبوت الافتراضي. لا تتغير إلا إذا ظل L_kl بالقرب من الصفر بعد 20 ألف خطوة.
lr	1ه-5	LeRobot الافتراضي لـ ACT. ينخفض إلى 5e-6 إذا تأرجحت خسارة إعادة الإعمار بدلاً من التقارب.

قراءة سجلات التدريب

تتم طباعة سجلات التدريب إلى المحطة الطرفية وإلى TensorBoard. قم بتشغيل TensorBoard في المحطة الثانية:

Tensorboard --logdir ~/lerobot-policies/

ثم افتح http://localhost:6006 في المتصفح الخاص بك. شاهد هذه المنحنيات:

الخسارة/إعادة الإعمار (L_recon)

إشارة التدريب الأولية. يجب أن ينخفض من ~2.5–3.5 إلى أقل من 0.1 بمقدار 50000 خطوة. عادةً ما يعني الوصول إلى مستوى أعلى من 0.15 بعد 40000 خطوة أن مجموعة البيانات الخاصة بك بها الكثير من التباين - قم بمراجعة ممارسات العرض التوضيحي الجيدة للوحدة 3 وفكر في تسجيل عروض توضيحية أكثر اتساقًا.

القلعة / كوالالمبور (L_kl)

يرتفع ببطء من قريب من 0 إلى 5-20. هذا هو السلوك المتوقع — يتعلم CVAE أسلوبًا مدمجًا للتضمين. إذا تجاوزت 40، فإن مظاهراتك تحتوي على الكثير من التنوع السلوكي. إذا ظل بالقرب من 0 بعد 20 ألف خطوة، فإن CVAE لا يتعلم؛ زيادة الوزن إلى 20.

القطار/الخسارة (الخسارة الكاملة)

L_recon + kl_weight × L_kl. سيطر عليها L_recon في التدريب المبكر. ينبغي أن تنخفض رتابة. تشير الخسارة الإجمالية التي ترتفع بعد الانخفاض الأولي إلى أن انخفاض معدل التعلم يعد شديدًا للغاية - تحقق من تكوين المجدول.

إدارة نقاط التفتيش

نقاط التفتيش تحفظ كل 5000 خطوة ل ~/lerobot-policies/pick-place-v1/checkpoints/. لا تفترض أن نقطة التفتيش النهائية هي الأفضل. يمكن أن تبالغ السياسة في أعداد الخطوات العالية، خاصة مع مجموعات البيانات الصغيرة.

بعد التدريب، حدد أفضل نقطة تفتيش لديك: وهي الخطوة التي يصل فيها L_reconstruction إلى الحد الأدنى قبل البدء في الهضبة. بالنسبة لـ 50 عرضًا توضيحيًا، يحدث هذا عادةً في نطاق 35000-50000 خطوة. احفظ رقم الخطوة هذا، حيث ستستخدمه في الوحدة الخامسة.

اكتملت الوحدة الرابعة عندما...

أكمل التدريب 50000 خطوة وتم حفظ نقاط التفتيش ~/lerobot-policies/pick-place-v1/checkpoints/. خسارة L_reconstruction النهائية أقل من 0.1. لقد حددت أفضل خطوة نقطة تفتيش لديك بناءً على منحنيات الخسارة. أنت تفهم ما يفعله L_kl في التدريب الخاص بك. أنت جاهز لتقييم السياسة في الوحدة الخامسة.