تعلم الروبوت

تعميم سياسة الروبوت: لماذا يفشل الروبوت الخاص بك في التعامل مع الكائنات الجديدة

تحقق سياستك نجاحًا بنسبة 90% في كائنات التدريب. تقدم كوبًا جديدًا، وصندوقًا مختلفًا، وأداة غير مألوفة - وينخفض الأداء إلى 30%. هذه هي مشكلة التعميم، وهي التحدي الرئيسي المتمثل في نشر التعلم الآلي في العالم الحقيقي.

ماذا يعني التعميم لسياسات الروبوت

يتم تعميم سياسة الروبوت عندما يؤدي بنجاح مهمة على الأشياء والمواقف والظروف التي لم يتم رؤيتها أثناء التدريب. ويختلف هذا عن مجرد حفظ السلوك الموضح - فالحفظ ينتج سياسات هشة تفشل بمجرد اختلاف ظروف النشر عن ظروف التدريب. يتطلب التعميم أن تتعلم السياسة مفهوم المهمة الأساسية (التقاط الحاوية، صب السائل) بدلاً من تسلسل حركة محدد مرتبط بمدخلات مرئية محددة.

هناك محاور متعددة للتعميم ذات أهمية في الممارسة العملية: تعميم مظهر الكائن (نفس الشكل، لون أو نسيج مختلف)، تعميم هندسة الكائن (نفس الفئة، حجم مختلف أو شكل دقيق)، تعميم الموضع (نفس الكائن، موقع بداية مختلف)، والتعميم التركيبي (مجموعات جديدة من عناصر المهمة المألوفة). يتطلب كل محور استراتيجيات بيانات مختلفة وهو أكثر أو أقل صعوبة اعتمادًا على بنية السياسة.

لماذا فشل: الأسباب الجذرية

السبب الأكثر شيوعًا لضعف التعميم هو عدم كفاية التنوع في مجموعة بيانات التدريب. إذا استخدمت جميع المظاهرات نفس الكأس الحمراء في نفس وضع البداية، فإن السياسة تتعلم ميزات خاصة بذلك الكأس وهذا الوضع - وليس المفهوم العام لـ "الكوب". لا يمكن للسياسة التمييز بين "التقاط هذا الكوب الأحمر المحدد في هذا الموقع المحدد" و"التقاط أي كوب في أي مكان". وهذا ليس عيبًا في الخوارزمية؛ إنها مشكلة بيانات.

السبب الثانوي هو تحول التوزيع في الميزات المرئية. إذا تم تسجيل العروض التوضيحية للتدريب تحت إضاءة الاستوديو التي يتم التحكم فيها وحدث النشر في إضاءة محيطة متغيرة، فقد لا يتم تنشيط الميزات المرئية التي تعلمتها السياسة بشكل صحيح عند ملاحظات النشر. وبالمثل، إذا كان الكائن الجديد له ملمس سطحي أو انعكاس مختلف عن كائنات التدريب، فإن الميزات المرئية منخفضة المستوى التي يستخدمها العمود الفقري للسياسة قد لا تتطابق مع التوقعات. ولهذا السبب يتطلب معيار جمع البيانات الخاص بـ SVRC جمع البيانات في ظل ظروف إضاءة متعددة ومع مثيلات كائنات متنوعة.

استراتيجيات تنوع البيانات

الطريقة الأكثر موثوقية لتحسين التعميم هي التنويع المتعمد لمجموعة البيانات. بالنسبة لتنوع الكائنات: اجمع العروض التوضيحية بما لا يقل عن 10 إلى 20 مثيلًا متميزًا لفئة الكائن المستهدف، مع اختلاف الحجم واللون والمواد والعلامة التجارية. بالنسبة لتنوع المواضع: قم بتغيير موضع البداية عبر شبكة مقاس 30-40 سم وتضمين اتجاهات مختلفة. لتنوع الخلفية: قم بتغيير سطح مساحة العمل، وأضف عناصر تشتيت الانتباه، وقم بتنويع الإضاءة عبر الجلسات.

إن زيادة البيانات يمكن أن تكمل التنوع الحقيقي ولكنها لا يمكن أن تحل محله. تعمل التعزيزات المرئية القياسية - ارتعاش اللون، والاقتصاص العشوائي، وتباين السطوع/التباين - على تحسين قوة تباين الإضاءة ولكنها لا تحل محل مثيلات الكائنات المتنوعة. إن توليد بيانات اصطناعية معززة باستخدام تحرير الصور أو النماذج التوليدية لإنشاء أشكال مختلفة من الكائنات قد أظهر نتائج واعدة ولكنه يتطلب مراقبة دقيقة للجودة لتجنب تقديم أعمال بصرية غير واقعية.

VLAs مقابل السياسات الخاصة بالمهام

تقدم نماذج الرؤية واللغة والعمل (VLAs) - السياسات التي تأخذ تعليمات اللغة والملاحظات المرئية كمدخلات وتنتج إجراءات - نهجًا مختلفًا للتعميم. من خلال ترسيخ سلوك الروبوت في التمثيلات الدلالية الغنية للتدريب المسبق على لغة الرؤية الكبيرة، يمكن لـ VLAs في بعض الأحيان التعامل مع حالات الكائنات الجديدة بدون طلقة بناءً على مظهرها المرئي المطابق لوصف اللغة ("التقط الكوب" يعمم على أي كائن يتعرف عليه النموذج على أنه كوب). أظهرت نماذج مثل OpenVLA، وOcto، وRT-2 تعميمًا ذا مغزى على بعض مهام المعالجة.

ومع ذلك، فإن VLAs ليست آلات تعميم سحرية. إنهم يتفوقون في التعميم الدلالي (مثيلات كائن جديدة ضمن فئة معروفة) لكنهم ما زالوا يعانون من التعميم الهندسي (أشكال كائنات جديدة تتطلب تكوينات فهم مختلفة) ومع المهام التي تتطلب تحكمًا دقيقًا في القوة أو سلوكًا غنيًا بالاتصال. بالنسبة لمعظم فرق البحث، التوصية العملية هي: استخدام VLA كنقطة بداية أو عمود فقري، ثم قم بضبط العروض التوضيحية الخاصة بالمهمة لتحقيق الدقة والموثوقية التي تحتاجها.

طرق التقييم للتعميم

يجب تقييم التعميم بشكل صريح، وليس استنتاجه من الأداء أثناء التوزيع. يستخدم بروتوكول التقييم القياسي مجموعة اختبار محتجزة من الكائنات غير الموجودة في التدريب - من الناحية المثالية 5-10 مثيلات كائن لكل فئة تم استبعادها عمدًا من جمع البيانات. قم بالتقييم على المجموعة المعلقة بعد التدريب وقم بالإبلاغ عن معدلات النجاح داخل التوزيع وخارج التوزيع بشكل منفصل. إن السياسة التي تحقق 85% من التوزيع ولكن 40% فقط خارج التوزيع لها تعميم محدود وتحتاج إلى بيانات تدريب أكثر تنوعًا.

تتطلب معايير الجودة الخاصة بـ SVRC تقييمًا عامًا قبل وضع علامة على أي مجموعة بيانات جاهزة للإنتاج. يتضمن مسار التعليقات التوضيحية والتقييم الخاص بنا مجموعة كائنات معلقة لجميع مجموعات بيانات المعالجة، ويمكن لفريقنا الهندسي إجراء تقييمات تعميم موحدة على السياسات المدربة. للمساعدة في بناء مجموعة بيانات أكثر قابلية للتعميم من خلال موقعنا خدمات البياناتأو لدعم التقييم، اتصل بفريق SVRC.