التعلم بالتقليد للروبوتات: دليل عملي
لقد برز التعلم بالتقليد باعتباره النموذج المهيمن لتعليم الروبوتات مهارات التلاعب الماهرة. بدلاً من صياغة وظائف المكافآت يدويًا أو كتابة خطط الحركة، ما عليك سوى إظهار الروبوت ما يجب القيام به. يشرح هذا الدليل كيفية عمله، والخوارزميات التي يجب استخدامها، والبنية التحتية التي تحتاجها للحصول على النتائج.
ما هو التعلم بالتقليد؟
التعلم بالتقليد (IL) - والذي يُطلق عليه أيضًا التعلم من العرض التوضيحي (LfD) أو الاستنساخ السلوكي - يدرب السياسة على تكرار الإجراءات الملتقطة من المشغل البشري. أثناء جمع البيانات، يقوم المتظاهر الماهر بنقل الروبوت عن بعد خلال المهمة المستهدفة بينما تسجل المستشعرات مواضع المفاصل ووضعيات المستجيب النهائي وإطارات الكاميرا وأي حالة أخرى ذات صلة. تصبح تلك البيانات المسجلة مجموعة التدريب لسياسة الشبكة العصبية.
إن جاذبية IL على التعلم المعزز أمر عملي: فأنت لا تحتاج إلى تصميم إشارة مكافأة، أو تشغيل الملايين من عمليات إطلاق المحاكاة، أو حل مشكلة استكشاف المكافأة المتفرقة. إذا تمكن الإنسان من القيام بالمهمة، فمن المحتمل أن يتعلمها الروبوت من بضع مئات إلى بضعة آلاف من العروض التوضيحية. ويتمثل التحدي في التعميم - فالسياسات التي يتم تدريبها على العروض التوضيحية الضيقة يمكن أن تفشل عندما تختلف مواضع الأشياء أو الإضاءة أو اختلافات المهام عن توزيع التدريب.
تعالج أبحاث IL الحديثة هذا الأمر من خلال تصميمات أفضل ومجموعات بيانات أكبر وأكثر تنوعًا وتمثيلات مرئية مدربة مسبقًا. لقد تطور هذا المجال بسرعة منذ عام 2023، وأصبح تعلم تقليد جودة الإنتاج الآن في متناول الفرق دون الوصول إلى برنامج الدكتوراه في مجال الروبوتات.
ACT: قطع العمل مع المحولات
ACT، الذي تم تقديمه جنبًا إلى جنب مع منصة الروبوت ALOHA ثنائية اليد من جامعة ستانفورد، يتعامل مع التحكم في الروبوت باعتباره مشكلة تنبؤ بالتسلسل. تتنبأ السياسة بجزء كبير من الإجراءات المستقبلية - عادةً ما بين 50 إلى 100 خطوة زمنية - بدلاً من إجراء تالٍ واحد. يقلل هذا الإجراء من الخطأ المضاعف، وهو وضع الفشل الرئيسي للاستنساخ السلوكي الساذج حيث تتراكم أخطاء التنبؤ الصغيرة على طول المسار.
يستخدم ACT CVAE (جهاز التشفير التلقائي المتغير المشروط) أثناء التدريب لالتقاط الوسائط المتعددة للعروض التوضيحية البشرية - حقيقة أنه غالبًا ما يكون هناك أكثر من طريقة صحيحة لإكمال المهمة. في وقت الاستدلال، يقوم جهاز فك التشفير بإنشاء تسلسلات عمل مشروطة بملاحظات الكاميرا الحالية والحالة المشتركة. والنتيجة هي سياسة تتعامل مع التباين الطبيعي في المهام التي يبرهن عليها الإنسان دون أي تلاعب بالوضع.
يعد ACT نقطة انطلاق قوية لمهام المعالجة اليدوية. فهو يتطلب كميات متواضعة نسبيًا من البيانات (50-200 عرض توضيحي لكل مهمة) ويتم تدريبه على وحدة معالجة رسومات واحدة في ساعات. إذا كنت تعمل مع أجهزة ALOHA أو إعداد ثنائي يدوي مماثل، فيجب أن تكون ACT هي الخوارزمية الأولى التي عليك تجربتها. SVRC خدمات البيانات تضمين مجموعات البيانات المتوافقة مع ACT المُجهزة مسبقًا والتي تم جمعها على منصات فئة ALOHA.
سياسة النشر: التعامل مع توزيعات العمل متعدد الوسائط
تطبق سياسة النشر نماذج نشر مطابقة للنتائج - نفس فئة النماذج التي تعمل على تشغيل Stable Diffusion للصور - على مساحة عمل الروبوت. وبدلاً من التنبؤ بأفضل إجراء منفرد، تتعلم السياسة التوزيع الكامل للإجراءات التي قد يتخذها المتظاهر البشري. وفي وقت الاستدلال، يتم تشغيل عملية تقليل الضوضاء لأخذ عينات من إجراء عالي الجودة من هذا التوزيع.
الميزة الرئيسية التي يتفوق بها ACT هي كيفية تعامله مع المهام متعددة الوسائط: سيناريوهات حيث قد يمسك الإنسان بجسم ما من اليسار أو اليمين، أو يقترب من هدف من زوايا متعددة صحيحة. ويعمل الاستنساخ السلوكي القياسي على الجمع بين هذه الأنماط معًا، مما يؤدي إلى إنتاج سياسة تفشل في المنتصف. عينات سياسة الانتشار من الوضع الصحيح في ضوء السياق الحالي، مما ينتج عنه سلوك أكثر قوة في المهام الغامضة.
المقايضة هي سرعة الاستدلال. تتطلب سياسة النشر مع العمود الفقري لـ UNet 100 خطوة تقليل الضوضاء عند الاستدلال افتراضيًا، والتي يمكن أن تكون بطيئة جدًا للتحكم في الوقت الفعلي. تعمل متغيرات أخذ العينات DDIM والتقطير المتسق على تقليل ذلك إلى 10-25 خطوة، مما يجعل التشغيل في الوقت الفعلي قابلاً للتطبيق. بالنسبة لمتطلبات البيانات، تستفيد سياسة النشر عمومًا من المزيد من العروض التوضيحية مقارنة بـ ACT ولكنها تكافئ تنوع مجموعة البيانات أكثر من الكمية الأولية.
نماذج الرؤية واللغة والعمل: IL على نطاق واسع
تقوم VLAs مثل OpenVLA وpi0 وRT-2 بتوسيع التعلم بالتقليد من خلال التدريب المسبق على البيانات المرئية واللغوية على نطاق الإنترنت قبل الضبط الدقيق لعروض الروبوت. يوفر العمود الفقري المدرب مسبقًا تمثيلاً غنيًا للأشياء والمشاهد والعلاقات التي تنتقل بقوة إلى التلاعب بالروبوت. يتطلب الضبط الدقيق عروضًا توضيحية أقل بكثير من التدريب من الصفر، وأحيانًا ما يصل إلى 10 إلى 50 مثالًا محددًا للمهام.
بالنسبة للفرق التي يمكنها تحمل متطلبات الحوسبة والترخيص، تمثل VLAs الحدود الحالية لأداء IL. إنها تعمم بشكل أفضل على الكائنات الجديدة والبيئات الجديدة واختلافات المهام المحددة باللغة. يوفر SVRC مجموعات بيانات دقيقة و البنية التحتية للعمليات عن بعد متوافق مع تنسيقات البيانات المتوقعة من خلال خطوط أنابيب تدريب VLA الرئيسية. انظر لدينا شرح نماذج VLA الدليل لانهيار فني أعمق.
متطلبات البيانات للتعلم بالتقليد
الحد الأدنى لمجموعة البيانات القابلة للتطبيق لمهمة معالجة واحدة هو عادةً 50 عرضًا توضيحيًا لـ ACT، و100-200 لسياسة الانتشار، و20-50 لضبط VLA. هذه هي تقديرات الأرضية في ظل ظروف مواتية - الإضاءة المتسقة، ووجهات نظر الكاميرا الثابتة، والأشياء في مواضع يمكن التنبؤ بها. يتطلب النشر في العالم الحقيقي بيانات أكثر بمقدار 3 إلى 5 مرات لتغطية التنوع الذي سيواجهه نظامك في الإنتاج.
إن جودة البيانات مهمة بقدر أهمية الكمية. يجب أن يتم جمع العروض التوضيحية من قبل المشغلين المهرة الذين يكملون المهمة بشكل متسق ونظيف. المحاولات الفاشلة، والتردد، والتصحيحات التي تدخل مجموعة التدريب على أنها نجاحات مصنفة ستؤدي إلى تدهور أداء السياسة. SVRC خدمة جمع البيانات المدارة يوفر مشغلين مدربين، واختيار الحلقات التي تمت تصفيتها بجودة عالية، وتعبئة مجموعة البيانات المنظمة - مما يوفر أسابيع لفريقك الهندسي من العمل في مسار البيانات.
تنوع أجهزة الاستشعار مهم أيضًا. كثيرًا ما تفشل السياسات التي يتم تدريبها على كاميرا معصم واحدة عند إغلاق تلك الكاميرا. أفضل الممارسات هي الجمع من وجهتي نظر للكاميرا على الأقل - منظر علوي ثابت أو منظر جانبي وواحد مثبت على المعصم - وتضمين حالة التحسس (زوايا المفصل وسرعاته) جنبًا إلى جنب مع الملاحظات البصرية.
الأجهزة والبنية التحتية لأبحاث IL
يتضمن الحد الأدنى من مجموعة الأجهزة لمشروع بحث التعلم التقليد ما يلي: ذراع روبوت يتمتع بدرجات كافية من الحرية لمهمتك (على الأقل 6-DOF للمعالجة العامة)، ونظام تشغيل عن بعد تابع للقائد أو قائم على الواقع الافتراضي لجمع البيانات، وكاميرتين أو أكثر، ومحطة عمل مزودة بوحدة معالجة رسومات NVIDIA واحدة على الأقل (RTX 3090 أو أفضل لسياسة ACT/Diffusion؛ يوصى باستخدام A100 أو H100 للضبط الدقيق لـ VLA).
SVRC كتالوج الأجهزة تتضمن منصة OpenArm، التي تأتي مع ذراع قائد التشغيل عن بعد المتوافق وأجهزة التثبيت لتكوينات الكاميرا القياسية. ال منصة SVRC يوفر طبقة البرمجيات: تسجيل الحلقات، وإدارة مجموعة البيانات، وخطوط التدريب على السياسات، وأدوات التقييم. يمكن للفرق استئجار الأجهزة بدلاً من شرائها للمشاريع قصيرة الأجل من خلال برنامج تأجير الروبوت، والذي غالبًا ما يكون أسرع مسار لنموذج أولي فعال لـ IL.
بالنسبة للفرق التي ترغب في البدء بالبيانات قبل الاستثمار في الأجهزة، يوفر SVRC إمكانية الوصول إلى مجموعات بيانات توضيحية متعددة المهام تم جمعها في منشأتنا بالو ألتو. تغطي مجموعات البيانات هذه أساسيات المعالجة الشائعة - الانتقاء والوضع والصب والطي والتجميع - وتم تنسيقها للاستخدام المباشر مع ACT وDiffusion Policy وHugging Face LeRobot. اتصل بفريقنا لمناقشة خيارات الوصول إلى مجموعة البيانات.