شرح نماذج الرؤية واللغة والعمل: كيف تعمل VLAs على تشغيل الروبوتات الحديثة

نماذج الرؤية واللغة والحركة هي المعادل الآلي لـGPT-4، وهي شبكات عصبية ضخمة مدربة مسبقًا يمكن ضبطها بدقة لأداء مجموعة واسعة من المهام الجسدية. إن فهم ماهية VLAs وكيفية عملها ومتى يتم استخدامها أصبح الآن معرفة أساسية لأي ممارس جاد في مجال الروبوتات.

ما هو نموذج الرؤية واللغة والعمل؟

نموذج الرؤية واللغة والحركة (VLA) عبارة عن شبكة عصبية تأخذ الملاحظات المرئية (صور الكاميرا) وتعليمات اللغة الطبيعية كمدخلات، وتخرج إجراءات الروبوت - سرعات المفاصل، أو أوضاع المؤثر النهائي، أو أوامر القابض. يشير جزء "لغة الرؤية" إلى العمود الفقري المُدرب مسبقًا: ترث هذه النماذج فهمها البصري والدلالي من التدريب المسبق واسع النطاق على الإنترنت على أزواج الصور والنص، مثل CLIP أو نموذج لغة الرؤية (VLM). الجزء "العملي" هو رأس الضبط الدقيق الذي تم تدريبه على بيانات العرض التوضيحي للروبوت.

الفكرة الأساسية هي أن التدريب المسبق على بيانات الإنترنت يمنح العمود الفقري للروبوت تمثيلاً غنيًا للعالم المادي - ما هي الأشياء، وكيفية ارتباطها مكانيًا، وما تعنيه اللغة - قبل أن يشهد أي عرض توضيحي للروبوت. يقوم الضبط الدقيق بعد ذلك بتكييف هذا التمثيل مع تجسيد الروبوت والمهام المستهدفة. ونظرًا لأن العمود الفقري يفهم بالفعل مبدأ "التقط الكأس الأزرق" أو "افتح الدرج الموجود على اليسار"، فيمكن للنموذج التعميم على كائنات جديدة وصياغة المهام مع عروض توضيحية أقل بكثير من السياسة التي تم تدريبها من الصفر.

RT-2: أول VLA واسع النطاق

كان RT-2 (Robotics Transformer 2)، الذي أطلقته شركة Google DeepMind في عام 2023، أول دليل على أن توسيع نطاق نموذج لغة الرؤية للتحكم في الروبوت أدى إلى إنتاج قدرات جديدة نوعيًا. شارك RT-2 في ضبط نموذج لغة الرؤية PaLI-X على بيانات الويب ومسارات الروبوت في وقت واحد، مما أدى إلى إنتاج سياسة يمكنها اتباع تعليمات جديدة، والتفكير في خصائص الكائنات، وتعميمها على أشياء لم يسبق لها مثيل في عروض الروبوتات - فقط على الإنترنت.

أظهر RT-2 أن VLAs يمكن أن تؤدي تفكيرًا متسلسلًا: طُلب من النموذج التقاط "شيء يمكنك استخدامه لتنظيف الانسكاب"، حدد النموذج إسفنجة من مكان الحادث دون أن يُطلب منه صراحةً ربط الإسفنج بالتنظيف. هذه القدرة الناشئة - التعميم الدلالي خارج نطاق توزيع التدريب - هي ما يجعل VLAs مختلفة نوعيًا عن سياسات تعلم التقليد الكلاسيكية. والمقايضة هي الحوسبة: يعمل RT-2 على نموذج يحتوي على 55 مليار معلمة، مما يتطلب بنية تحتية كبيرة للنشر.

OpenVLA: ضبط VLA مفتوح المصدر

قام OpenVLA، الذي أصدره باحثون من جامعة ستانفورد وبيركلي في عام 2024، بإضفاء طابع ديمقراطي على الضبط الدقيق لـ VLA من خلال الاعتماد على Prismatic VLM مفتوح المصدر (المعتمد في حد ذاته على LLaMA) والتدريب على مجموعة بيانات Open X-Embodiment - وهي مجموعة مكونة من 970 ألف حلقة من العروض التوضيحية للروبوت من 22 نموذجًا مختلفًا. OpenVLA هي نقطة البداية التي تستخدمها معظم فرق البحث اليوم لأنها مفتوحة المصدر بالكامل، وموثقة جيدًا، وتحقق أداءً قويًا وفقًا لمعايير المعالجة القياسية.

يتطلب الضبط الدقيق لـ OpenVLA في مهمة مخصصة ما لا يقل عن 50-200 عرض توضيحي، ومجموعة بيانات منسقة باستخدام اتفاقيات HuggingFace LeRobot، ووحدة معالجة رسومات واحدة A100 أو H100 بسعة 80 جيجابايت لتشغيل تدريب لعدة ساعات. إن السياسة الناتجة قادرة بشكل مدهش على التعميم على اختلافات المشهد ومواضع الكائنات الجديدة التي لم يتم رؤيتها في التدريب، وذلك بفضل العمود الفقري البصري المدرب مسبقًا. SVRC خدمة جمع البيانات تنتج مجموعات بيانات بتنسيق متوافق مع LeRobot، وجاهزة للضبط الدقيق لـ OpenVLA خارج الصندوق.

pi0: السياسة العامة للذكاء الجسدي

تمثل pi0، من شركة Physical Intelligence (pi.ai)، الحدود التجارية لتطوير VLA. على عكس OpenVLA، الذي يرث العمود الفقري لنموذج اللغة، يستخدم pi0 رأس عمل مطابق للتدفق ينتج مسارات عمل مستمرة وسلسة - أكثر ملاءمة للمهام البارعة من الإجراءات الرمزية المنفصلة. تم تدريب pi0 على مجموعة بيانات خاصة تضم أكثر من 10000 ساعة من العروض التوضيحية للروبوت عبر عشرات المهام ومنصات الأجهزة.

ما يميز pi0 معماريا هو الفصل بين مسار التفكير المكيف اللغوي "البطيء" ومسار التحكم الحركي التفاعلي "السريع". وهذا يعكس رؤى العلوم المعرفية حول أنظمة التحكم في العمليات المزدوجة. يعالج المسار البطيء تعليمات المهمة والمشهد الحالي لإنتاج خطة عالية المستوى؛ يولد المسار السريع أوامر حركية منخفضة الكمون. والنتيجة هي سياسة يمكنها التعامل مع كل من التفكير طويل المدى والتحكم التفاعلي عالي التردد، مما يفتح الباب أمام مهام مثل طي الغسيل، حيث يكون كلاهما مطلوبًا في وقت واحد.

يتوفر الوصول إلى pi0 للنشر التجاري من خلال برنامج مؤسسة Physical Intelligence. للفرق التي تستكشف بنيات على طراز pi0، SVRC's المعايير تضمين تقييمات لسياسات مطابقة التدفق في مجموعات المعالجة القياسية، مما يمنحك نقطة مرجعية للأداء المتوقع قبل الالتزام بإجراء التدريب.

كيف تختلف VLAs عن سياسات التعلم المقلدة الكلاسيكية

سياسات IL الكلاسيكية - ACT، وسياسة الانتشار، وBC-Z - تتعلم بالكامل من بيانات العرض التوضيحي للروبوت. يتم تعلم تمثيلاتها المرئية من الصفر أو من خلال برنامج تشفير ضيق تم تدريبه مسبقًا (مثل R3M أو MVP). إنهم يعممون بشكل جيد ضمن توزيع التدريب الخاص بهم ولكنهم يواجهون صعوبة في التعامل مع الأشياء الجديدة أو تغييرات الإضاءة أو تعليمات المهمة التي تعيد صياغة الهدف. كما أنها تتطلب المزيد من العروض التوضيحية لتحقيق مستوى أداء معين لأنها تفتقر إلى الدلالات المسبقة التي يوفرها التدريب المسبق.

تقوم VLAs بتداول الحوسبة من أجل التعميم. إن سياسة ACT الكلاسيكية على وحدة معالجة الرسومات تكلف قرشًا لكل استدلال؛ خطوة استدلال VLA على نموذج 7B-parameter تكلف أوامر ذات حجم أكبر. بالنسبة للمهام التي تحتاج إلى تعميم على نطاق واسع عبر البيئات والتعليمات، تفوز VLAs. بالنسبة إلى مهمة صناعية متكررة ومحددة بشكل ضيق حيث يكون لديك أكثر من 1000 عرض توضيحي ويمكنك ضبط البيئة، غالبًا ما تحقق السياسة الكلاسيكية سرعة وموثوقية أفضل بتكلفة أقل. إطار القرار العملي: إذا كانت مهمتك تتطلب تعميمًا، فابدأ بالعمود الفقري لـ VLA. إذا كانت ضيقة وعالية الإنتاجية، قم بتحسين السياسة الكلاسيكية.

ضبط VLAs باستخدام بيانات SVRC

يوفر SVRC دعمًا شاملاً لمشاريع الضبط الدقيق لـ VLA. ملكنا البنية التحتية للعمليات عن بعد يلتقط العروض التوضيحية بتنسيق RLDS/LeRobot مع فيديو متزامن متعدد الكاميرات وحالة التحسس وتسميات الحركة عند 50 هرتز. تتضمن مسارات مجموعة البيانات لدينا تصفية جودة الحلقة (إزالة المحاولات الفاشلة والترددات)، والبيانات التعريفية لمعايرة الكاميرا، والتعليق التوضيحي لتعليمات المهمة.

بالنسبة للفرق التي تحتاج إلى بيانات مخصصة على نطاق واسع، يمكن لخدمة التجميع المُدارة لدينا في منشأة بالو ألتو إنتاج مئات العروض التوضيحية يوميًا مع مشغلين مدربين عبر مكتبة من مهام المعالجة. كما نقدم أيضًا استشارات بشأن تصميم المهام - تحديد النطاق ومحاور الاختلاف ومعايير النجاح لمجموعة البيانات التي ستقوم فعليًا بتدريب سياسة قابلة للتعميم. اتصل بفريقنا لمناقشة مشروع الضبط الدقيق لـ VLA الخاص بك، أو استكشاف كتالوج مجموعة البيانات الحالي لدينا من خلال منصة SVRC.

متعلق ب: التعلم بالتقليد للروبوتات · سياسة الانتشار لتعلم الروبوت · دليل الروبوت الوها · خدمات البيانات · المعايير