الوحدة الخامسة: تدريب سياستك الأولى — مسار التعلم OpenArm

ما يفعله التعلم بالتقليد في الواقع

قبل تشغيل أمر التدريب، خذ دقيقتين لفهم ما يتعلمه النموذج بالفعل. يقوم التعلم بالتقليد بتدريب شبكة السياسات على رسم خريطة للملاحظات (صور الكاميرا + الحالة المشتركة الحالية) للأفعال (الزوايا المشتركة التالية). لا تتلقى الشبكة أبدًا إشارة مكافأة - فهي ترى فقط العروض التوضيحية الخاصة بك وتتعلم كيفية إعادة إنتاج توزيع الإجراءات التي قمت بها في حالات مماثلة.

يتنبأ ACT (تقطيع الحركة باستخدام المحولات) بـ قطعة من 100 إجراء مستقبلي مرة واحدة بدلاً من خطوة واحدة. وهذا يمنع تراكم الأخطاء عبر الحلقة: حتى لو كان التنبؤ الفردي خاطئًا قليلاً، فإن القطعة توفر مخزنًا مؤقتًا ثابتًا للمسار. ثم يقوم بإعادة التخطيط كل 100 خطوة زمنية (ثانيتين عند 50 هرتز). وهذا هو السبب في أن ACT يتعامل مع المهام الأطول بشكل أفضل من استنساخ السلوك العادي.

للحصول على الخلفية النظرية الكاملة، اقرأ أساسيات التعلم بالتقليد في مكتبة الروبوتات.

وحدة معالجة الرسومات أو وحدة المعالجة المركزية؟

يستغرق التدريب على وحدة معالجة الرسومات NVIDIA المزودة بذاكرة VRAM سعة 8 جيجابايت+ حوالي 45 دقيقة لمسافة 100 ألف خطوة. يستغرق التدريب على وحدة المعالجة المركزية من 3 إلى 4 ساعات لنفس التشغيل. كلاهما ينتجان جودة نموذجية مكافئة – وحدة معالجة الرسومات أسرع. إذا لم يكن لديك وحدة معالجة رسومات محلية، فسيعمل أمر التدريب بشكل مماثل على مثيل سحابي (Lambda Labs أو Google Colab مع وقت تشغيل A100). التعليمات موجودة في الملف التمهيدي الخاص بمستودع LeRobot.

تدريب ACT على مجموعة البيانات الخاصة بك

قم بتشغيل البرنامج النصي للتدريب من بيئتك الافتراضية. تمت معايرة قيم التكوين أدناه لمجموعات بيانات الانتقاء والمكان المكونة من 50 حلقة على OpenArm - لا تقم بتغييرها في التشغيل الأول:

المصدر ~/openarm-env/bin/activate بايثون -م lerobot.scripts.train \ --مسار مجموعة البيانات ~/openarm-datasets/pick-and-place \ --قانون السياسة \ --حجم الدفعة 8 \ --ل1e-5 \ --عدد خطوات القطار 100000 \ --تقييم التكرار 5000 \ --حفظ التكرار 10000 \ --تردد السجل 500 \ --output-dir ~/openarm-policies/pick-and-place-v1

# Training will print loss every 500 steps and eval results every 5000 steps
# Checkpoints saved every 10k steps to ~/openarm-policies/pick-and-place-v1/

ابدأ التدريب، ثم راقب المخرجات. لا تحتاج إلى مشاهدته طوال الوقت — ولكن تحقق مرة أخرى كل 20 إلى 30 دقيقة للتأكد من أن الخسارة تتناقص وأن الجري لم يتعطل. يمكن أن يستمر التدريب طوال الليل أثناء نومك.

فهم منحنيات التدريب

تُظهر مخرجات تدريب ACT مقياسين رئيسيين. تعلم كيفية قراءتها بشكل صحيح - فهي تخبرك ما إذا كان تدريبك صحيًا ومتى تتوقف.

خسارة التدريب

يجب أن ينخفض بشكل حاد في أول 20 ألف خطوة، ثم يستمر في الانخفاض ببطء أكبر. عادةً ما تشير الخسارة التي تزيد عن 0.05 إلى مشاكل في جودة البيانات - تحقق من مجموعة البيانات الخاصة بك. تشير الخسارة التي تتأرجح على نطاق واسع إلى أن معدل التعلم الخاص بك مرتفع للغاية.

معدل نجاح التقييم

يظهر كل 5 آلاف خطوة (يتطلب ذراعًا ماديًا أو شريحة اتصال). هذا هو الرقم الذي يهم فعلا. تريد أن يكون هذا أعلى من 70% قبل النشر. غالبًا ما يتأخر عن خسارة التدريب - يمكن أن تبدو الخسارة جيدة بينما لا يزال معدل النجاح يتحسن.

العمل MSE

متوسط الخطأ التربيعي بين الإجراءات المتوقعة والحقيقة الأرضية. يجب أن تنخفض إلى أقل من 0.01 بالنسبة لسياسة الانتقاء والمكان المدربة جيدًا. يعني MSE عالي الحركة بعد 80 ألف خطوة أن النموذج يعاني من تعقيد المهمة أو أن بياناتك غير متسقة.

تباعد KL (خاص بـ ACT)

يستخدم ACT CVAE بوزن KL الذي يتم تلدينه من 0 إلى 10 أثناء التدريب. راقب هذا الاستقرار حول الخطوة 40 كيلو. إذا لم يتقارب أبدًا، فهذا يعني فشل النموذج في تشفير النمط - حاول إضافة المزيد من البيانات.

متى تتوقف عن التدريب

لا تركض ببساطة إلى 100 ألف خطوة وتتوقف. استخدم هذه الإشارات لتحديد متى تكون نقطة التفتيش الخاصة بك جاهزة للنشر:

استقر معدل نجاح التقييم لمدة 3 تقييمات متتالية - لقد تقارب النموذج. لن يساعد التدريب الإضافي بدون بيانات أكثر أو مختلفة.
معدل نجاح التقييم أعلى من 70% - هذه هي عتبة نشر الوحدة 6. إذا وصلت إلى 70% بعد 60 ألف خطوة، فيمكنك التوقف مبكرًا ونشر نقطة التفتيش تلك.
لا تزال خسارة التدريب في انخفاض ولكن التقييم ثابت أو متناقص - النموذج مبالغ فيه. خذ نقطة التفتيش الأخيرة حيث كان التقييم في ذروته. هذا هو أفضل نقطة تفتيش.
بعد 100 ألف خطوة — إذا كان معدل النجاح أقل من 40%، فارجع إلى الوحدة 4. من المرجح أن تكون مشكلة البيانات أكثر من مشكلة تدريب في هذه المرحلة.

الغوص العميق الاختياري

ما وراء ACT — سياسة الانتشار وπ₀

بمجرد أن يكون لديك سياسة ACT فعالة، فإن التجربة الطبيعية التالية هي سياسة الانتشار. فهو يتعامل مع المهام متعددة الوسائط بشكل أفضل (على سبيل المثال، يمكن للذراع الاقتراب من الكائن من زاويتين) على حساب الاستدلال الأبطأ. يغطي قسم أبحاث SVRC كليهما. تصفح المقالات البحثية →

اكتملت الوحدة الخامسة عندما...

اكتمل التدريب (أو قمت بإيقافه عند نقطة تفتيش جيدة). معدل نجاحك في التقييم أعلى من 70% في مهمة الاختيار والمكان. لديك نقطة تفتيش محفوظة في ~/openarm-policies/pick-and-place-v1/ وأنت تعرف رقم الخطوة الذي أنتج أفضل نتيجة لك. أنت جاهز لوضع هذه السياسة على الذراع الحقيقي في الوحدة السادسة.