سياسة الانتشار لتعلم الروبوت: ما هي وكيفية استخدامها
سياسة الانتشار، التي قدمها تشي وآخرون. في عام 2023، جلب ثورة النمذجة التوليدية للتحكم في الروبوتات. ومن خلال التعامل مع توليد الفعل باعتباره مشكلة تقليل الضوضاء، فإنه يتعامل مع الطبيعة متعددة الوسائط وعالية الأبعاد لسلوك التلاعب بطرق لا تستطيع خوارزميات الاستنساخ السلوكي الأبسط القيام بها. إليك ما تحتاج إلى معرفته لتطبيقه على مشروع الروبوتات الخاص بك.
ما هي سياسة الانتشار؟
سياسة الانتشار هي فئة من سياسات التحكم في الروبوتات القائمة على تقليل الضوضاء من النماذج الاحتمالية للانتشار (DDPMs) - وهو نفس الإطار الرياضي الذي يقوم عليه نماذج تحويل النص إلى صورة مثل Stable Diffusion. في سياق الروبوت، "الصورة" التي يتم إنشاؤها هي سلسلة من إجراءات الروبوت (مسار). بدءًا من الضوضاء الغوسية النقية في مساحة الحركة، يقلل النموذج بشكل متكرر من الضوضاء مشروطًا بالملاحظة البصرية الحالية وحالة الروبوت، مما ينتج عنه تسلسل عمل متماسك وعالي الجودة بعد 10-100 خطوة لتقليل الضوضاء.
الفكرة الأساسية هي أن نماذج الانتشار تتعلم التوزيع الاحتمالي الكامل على الإجراءات بدلاً من التنبؤ بإجراء واحد أفضل. بالنسبة للروبوتات، هذا أمر بالغ الأهمية. من الطبيعي أن تكون العروض البشرية لنفس المهمة متعددة الوسائط: فقد يمسك الشخص الكأس من الجانب الأيسر أو الجانب الأيمن اعتمادًا على الإشارات السياقية الدقيقة. النموذج الذي يجب أن ينهار هذا التوزيع إلى تنبؤ واحد إما أن يلتزم بوضع واحد ويفشل في النصف الآخر من الوقت، أو يقوم بمتوسط الأوضاع وينتج مسارًا غريبًا بين الأوضاع يفشل دائمًا. تتجنب سياسة الانتشار ذلك من خلال نمذجة التوزيع بشكل صريح وأخذ العينات منه في وقت الاستدلال.
لماذا تتفوق سياسة الانتشار على الاستنساخ السلوكي القياسي
يقوم الاستنساخ السلوكي القياسي (BC) بتدريب السياسة باعتبارها مشكلة تراجعية خاضعة للإشراف: في ضوء الملاحظة، توقع الإجراء. ينجح هذا عندما يكون التخطيط من الملاحظات إلى الإجراءات حتميًا وأحاديًا. في الممارسة العملية، نادرا ما تكون مهام التلاعب. حتى المهام "البسيطة" مثل انتقاء كتلة من الطاولة تتضمن زوايا اقتراب صحيحة متعددة، ووضعيات فهم، وتكوينات ما قبل الإمساك. تنتج Naive BC سياسات تتردد عند نقاط القرار، أو تتخذ خيارات حركية مخترقة، أو تفشل تمامًا عندما يختلف توزيع الاختبار قليلاً عن التدريب.
تتفوق سياسة الانتشار باستمرار على خطوط أساس BC في مجموعات المعالجة المعيارية. في الورقة الأصلية، حققت نتائج متقدمة في 11 من 12 مهمة في معيار Robomimic، مع هوامش كبيرة بشكل خاص في المهام ذات الوسائط المتعددة عالية الحركة. في تقييمات الروبوتات الحقيقية، أظهرت سياسة الانتشار سلوكًا أكثر قوة للتعافي - فعندما يصل الروبوت إلى حالة وسيطة خاطئة بعض الشيء، يمكن للسياسة أن تتعافى لأنها كانت تأخذ عينات من توزيع واسع النطاق بدلاً من اتباع مسار حتمي.
بالمقارنة مع ACT (تقطيع العمل باستخدام المحولات)، تعمل سياسة الانتشار بشكل عام بشكل أفضل في المهام ذات الوسائط المتعددة القوية والأسوأ في المهام ذات التبعيات طويلة المدى حيث يتألق تنبؤ قطعة ACT. ومن الناحية العملية، تتمتع كلتا الخوارزميتين بالتنافسية الكافية بحيث تكون جودة وكمية مجموعة البيانات أكثر أهمية من اختيار بنية السياسة. إذا لم تكن متأكدًا مما يجب استخدامه، فجرب ACT أولاً لمعرفة سرعة التكرار، ثم سياسة الانتشار إذا لاحظت فشل متوسط الوضع.
متطلبات البيانات لسياسة الانتشار
تستفيد سياسة الانتشار من بيانات أكثر من ACT، ويرجع ذلك أساسًا إلى أن شبكة تقليل الضوضاء تحتوي على معلمات أكثر وهدف نمذجة أكثر ثراءً. الحد الأدنى العملي هو 100-200 عرض توضيحي لمهمة واحدة في ظل ظروف خاضعة للرقابة. لتحقيق أداء نشر قوي - التعامل مع اختلاف موضع الكائن، وتغييرات الإضاءة، وضوضاء المستشعر العرضية - قم بتخصيص 300 إلى 500 عرض توضيحي لكل مهمة. على عكس ACT، تميل سياسة النشر إلى مواصلة التحسين باستخدام بيانات إضافية تصل إلى أحجام مجموعات بيانات كبيرة جدًا، مما يجعلها الخيار الأفضل إذا كنت تخطط للاستثمار في جهد جمع البيانات على نطاق واسع.
إن تنوع البيانات لا يقل أهمية عن الحجم. يجب أن تمتد العروض التوضيحية إلى نطاق مواضع الكائنات واتجاهاتها وتكوينات المشهد التي تتوقعها عند النشر. إن مجموعة ضيقة من العروض التوضيحية التي تحتوي على كائنات دائمًا في نفس المكان تمامًا ستؤدي إلى إنتاج سياسة تفشل في اللحظة التي يتم فيها تحريك الكائن ببضعة سنتيمترات. SVRC خدمة جمع البيانات المدارة يتبع بروتوكولات التباين المنظمة — توزيع مواضع الكائنات بشكل عشوائي، وظروف الإضاءة، وأنماط قبضة المشغل — لضمان مجموعات البيانات التي تنتج سياسات قابلة للتعميم.
تمثيل الملاحظة مهم أيضًا بشكل كبير. تتفوق سياسة النشر مع برنامج تشفير الصور ResNet المدرب من البداية إلى النهاية على السياسات التي تستخدم برامج التشفير المجمدة المدربة مسبقًا على توزيعات المهام الضيقة، ولكن أجهزة التشفير المدربة مسبقًا (R3M، MVP، DINO) تنتج تعميمًا أفضل عندما تختلف ظروف الاختبار عن التدريب. بالنسبة لمعظم المشاريع العملية، ابدأ باستخدام برنامج تشفير تم تدريبه مسبقًا لزيادة قيمة مجموعة البيانات الخاصة بك إلى أقصى حد، وانتقل إلى التدريب الشامل فقط إذا كان لديك أكثر من 500 عرض توضيحي وبيئة مستقرة.
إعداد التدريب ومتطلبات الحساب
يتدرب التنفيذ المرجعي لسياسة الانتشار (المتوفر في Columbia Robotics Lab GitHub) إما باستخدام العمود الفقري لـ UNet (استدلال أسرع، سعة أقل) أو العمود الفقري للمحول (استدلال أبطأ، سعة أعلى). بالنسبة لمعظم المشاريع ذات المهمة الواحدة، يعد متغير UNet هو نقطة البداية الصحيحة. يستغرق التدريب على RTX 3090 أو 4090 واحدًا من 4 إلى 12 ساعة لمجموعة بيانات مكونة من 200 حلقة، اعتمادًا على دقة المراقبة وطول أفق العمل.
المعلمات الفائقة الرئيسية التي يجب ضبطها بشكل صحيح: أفق العمل (كم عدد الخطوات المستقبلية التي يجب التنبؤ بها - عادةً 16-32 لمهام الطاولة)، وعدد خطوات النشر (100 لـ DDPM، و10-25 لـ DDIM مع الحد الأدنى من فقدان الجودة)، ونافذة المراقبة (كم عدد الإطارات السابقة المراد تضمينها - عادةً 2). لا تغير الثلاثة في وقت واحد؛ إصلاح الآخرين عند ضبط واحد. عادة ما يكون التغيير الأكثر تأثيرًا لتحسين أداء السياسة هو زيادة حجم مجموعة البيانات، وليس ضبط المعلمات الفائقة للهندسة.
للاستدلال على روبوت حقيقي، عادةً ما يكون DDPM عند 100 خطوة بطيئًا جدًا للتحكم في التردد العالي. استخدم برنامج جدولة DDIM مع 10-25 خطوة، والذي يعمل بسرعة 20 هرتز تقريبًا على RTX 3090 - وهو ما يكفي للتحكم بسرعة 10 هرتز مع المخزن المؤقت. وبدلاً من ذلك، يمكن لتقطير سياسة الاتساق تحقيق استنتاج من 1 إلى 3 خطوات مع الحد الأدنى من تدهور الأداء للمهام الأبسط.
استخدام خدمات بيانات SVRC لسياسة النشر
SVRC خط أنابيب خدمات البيانات تنتج مجموعات بيانات منسقة للاستخدام المباشر مع التنفيذ المرجعي لسياسة الانتشار وإطار عمل HuggingFace LeRobot. يتم تخزين الحلقات كأرشيفات ZARR مع تدفقات الصور المتزامنة وحالة التحسس والإجراءات عند 50 هرتز. تعمل تصفية الجودة على إزالة الحلقات التي لم تكتمل فيها المهمة بنجاح، أو اصطدم الروبوت بالبيئة، أو أدى تردد المشغل إلى مسارات غير تمثيلية.
تستخدم خدمة التجميع لدينا منصة العمليات عن بعد SVRC مع تحكم مزدوج في القائد والتابع، وكاميرات مثبتة على المعصم وكاميرات علوية، وتسجيل اختياري لعزم دوران القوة. بالنسبة للتدريب على سياسة الانتشار متعدد المهام - حيث تتعلم سياسة واحدة مهام متعددة مشروطة بمعرف المهمة أو اللغة - يمكننا جمع متغيرات المهام داخل نفس الحملة وتقديم مجموعة بيانات موحدة. تحصل الفرق التي تعمل مع منصات أجهزة OpenArm أو ALOHA على دعم الأجهزة الأصلي؛ تكامل الأجهزة المخصصة متاح عند الطلب. اتصل بفريقنا لمناقشة متطلبات البيانات الخاصة بك والجدول الزمني.