تعلم الروبوت

شرح سياسة ACT: تجميع العمل باستخدام المحولات لتعلم الروبوت

أصبحت ACT - قطع العمل باستخدام المحولات - واحدة من خوارزميات تعلم التقليد الأكثر اعتماداً على نطاق واسع للتلاعب الماهر بعد نشرها من قبل توني تشاو والمتعاونين في جامعة ستانفورد. وفيما يلي شرح عملي لكيفية عمله وكيفية استخدامه.

ما هو الفعل؟

ACT عبارة عن خوارزمية تعلم تقليد مصممة لمهام التلاعب الدقيقة حيث يجب على الروبوت أن يقوم بحركات سلسة ومنسقة بناءً على الملاحظات البصرية. في وقت الاستدلال، يأخذ ACT سلسلة من الصور من كاميرات الروبوت والحالة المشتركة الحالية، ويخرج جزءًا من الإجراءات المستقبلية - تسلسل قصير من أهداف الموضع المشترك - بدلاً من إجراء تالٍ واحد. ينفذ الروبوت هذه القطعة، ثم يعيد الاستعلام عن سياسة القطعة التالية. يعد تصميم التنبؤ بعدة خطوات للأمام هو السمة المميزة لـ ACT ومصدر معظم مزاياه مقارنة باستنساخ السلوك الأبسط.

تم تقديم ACT في سياق نظام ALOHA للمعالجة اليدوية وأثبت نجاحه في المهام التي كانت تعتبر في السابق بعيدة عن متناول التعلم بالتقليد: فتح البطارية، وفتح كيس زيبلوك، وربط إبرة. وقد تم منذ ذلك الحين اعتماد رؤيتها الأساسية - وهي أن التنبؤ بالإجراء المجزأ يقلل من الأخطاء المركبة ويسهل المسارات - في العديد من خوارزميات المتابعة.

كيف يعمل تقطيع العمل

يقوم استنساخ السلوك القياسي (BC) بتدريب سياسة للتنبؤ بالإجراء الفردي التالي في ضوء الملاحظة الحالية. في وقت الاستدلال، تتراكم أخطاء التنبؤ: كل خطأ صغير يغير حالة الروبوت قليلاً، ويضعه في توزيع لم يتم التدريب عليه، مما يجعل التنبؤ التالي أسوأ، وما إلى ذلك. هذا الخطأ المضاعف هو وضع الفشل المركزي لـ BC الساذج في مهام المعالجة الدقيقة.

يكسر تقسيم الحركة هذه الدورة من خلال التنبؤ بتسلسل من الإجراءات المستقبلية - عادةً ما بين 50 إلى 100 خطوة عند 50 هرتز، أي ما يعادل 1-2 ثانية من الحركة. تلتزم السياسة بهذه الخطة وتنفذها قبل إعادة الاستعلام. نظرًا لأن الخطة تم إنشاؤها من ملاحظة واحدة متسقة، فإن المسار سلس ومتسق داخليًا. يعمل التجميع الزمني — حساب متوسط أجزاء الإجراء المتداخلة من عمليات إعادة الاستعلام المتعددة — على تسهيل التنفيذ وتقليل الارتعاش عند الحدود بين القطع.

أكت للهندسة المعمارية

يستخدم ACT بنية CVAE (جهاز التشفير التلقائي المتغير المشروط). أثناء التدريب، يقوم المشفر بمعالجة مسار العرض التوضيحي بالكامل - الصور والحالات المشتركة والإجراءات - وينتج متغير النمط الكامن z الذي يلتقط "نمط" العرض التوضيحي (السريع مقابل النهج البطيء، النهج الذي يميل إلى اليسار مقابل النهج الذي يميل إلى اليمين، وما إلى ذلك). يقوم بعد ذلك جهاز فك التشفير المعتمد على المحولات بأخذ الملاحظة الحالية، وz الكامنة، والتشفيرات الموضعية، ويتنبأ بقطعة الإجراء. في وقت الاستدلال، يتم ضبط z على الصفر (متوسط السابق)، مما يجعل السياسة حتمية في ضوء الملاحظة.

العمود الفقري للرؤية هو عادةً ResNet-18 الذي يعالج كل عرض للكاميرا بشكل مستقل، مع تمرير خرائط الميزات الناتجة كرموز مميزة إلى وحدة فك ترميز المحولات. تساهم عروض الكاميرا المتعددة - كاميرات المعصم بالإضافة إلى الكاميرات العلوية - في تدفق رمزي، مما يوفر للسياسة معلومات مكانية غنية حول مشهد التلاعب.

متطلبات البيانات وما يشكل بيانات جيدة

يعمل ACT بشكل جيد مع 50-200 عرض توضيحي لكل مهمة في معظم النتائج المنشورة. ومع ذلك، فإن جودة البيانات أهم من الكمية. ينبغي أن تكون العروض التوضيحية سلسة وهادفة - حيث ستتعلم سياسة ACT أي نمط حركة موجود في البيانات، بما في ذلك الترددات والتصحيحات والنهج دون المستوى الأمثل. SVRC معيار جمع البيانات يتطلب من المشغلين إعادة تشغيل الحلقة بدلاً من الاستمرار بعد حدوث خطأ واضح، مما يضمن أن مجموعة بيانات التدريب تحتوي فقط على سلوكيات مقصودة وناجحة.

يعد اتساق الكاميرا أمرًا بالغ الأهمية أيضًا. إذا تغير موضع الكاميرا بين جلسات التسجيل، فلن تتطابق الميزات المرئية التي تعلمتها السياسة مع إعداد النشر بعد الآن. استخدم التركيبات المادية بدلاً من الأذرع المرنة، وقم بتسجيل معلمات معايرة الكاميرا مع كل مجموعة بيانات. يفرض مسار التسجيل متعدد الكاميرات الخاص بـ SVRC هذا تلقائيًا.

ACT مقابل استنساخ السلوك: النتائج

في مهام ALOHA الأصلية، حقق ACT معدلات نجاح تتراوح بين 80-95% مقارنة بـ 20-50% لمعيار BC القياسي على نفس البيانات. ويكون التحسن أكثر وضوحًا في المهام التي تتطلب توقيتًا دقيقًا، وتنسيقًا سلسًا بين الذراعين، والتعافي اللطيف من الاضطرابات الصغيرة. في مهام الاختيار والمكان الأبسط مع التسامح المتسامح، تضيق الفجوة بين ACT وBC. يتفوق ACT أيضًا على سياسة النشر في المهام التي تكون فيها سرعة التنفيذ مهمة، نظرًا لأن السياسات القائمة على النشر تتطلب المزيد من الحساب لكل خطوة استدلال.

تدريب ACT مع بيانات SVRC

SVRC منصة البيانات يقوم بتصدير مجموعات البيانات بتنسيق HDF5 المتوافق مع LeRobot، وهو تنسيق الإدخال القياسي لكود تدريب ACT مفتوح المصدر. بعد تنزيل مجموعة البيانات الخاصة بك، يتطلب التدريب على سياسة ACT الأساسية وحدة معالجة رسومات (GPU) مزودة بذاكرة VRAM سعة 16 جيجابايت على الأقل وحوالي 8 ساعات من التدريب لمهمة واحدة. يتوفر الدعم الهندسي لـ SVRC لمساعدة الفرق في تكوين عمليات التدريب وضبط حجم القطعة ومعدل التعلم وتقييم أداء السياسة. بالنسبة للأجهزة التي يمكنها جمع البيانات الخاصة بك، راجع موقعنا كتالوج الأجهزة أو استكشاف خيارات تأجير الروبوت.