OpenVLA vs Octo: ما هو نموذج تعلم الروبوت الذي يجب اختياره؟

مقارنة عملية للباحثين والبنائين الذين يختارون نموذج الرؤية واللغة والعمل (VLA).

نماذج VLA تحدد الإدراك + اللغة للأفعال

الصور لغة الإجراءات

كلاهما OpenVLA و اوكتو هي نماذج عمل رؤية ولغة مفتوحة المصدر لتعلم الروبوت. وإليك كيفية المقارنة بينهما ومتى يتم استخدام كل منهما.

بنيان

OpenVLA يعتمد على Prismatic VLM ويضيف رؤوسًا للتنبؤ بالحركة. وهو يدعم أشكال الروبوت المتعددة ومساحات العمل. اوكتو يستخدم بنية قائمة على المحولات تم تدريبها على بيانات Open X-Embodiment. كلاهما يلتقط الصور + اللغة وإجراءات الإخراج.

بيانات التدريب

تم تدريب OpenVLA على Open X-Embodiment ومجموعات البيانات الإضافية. تم تدريب Octo على Open X-Embodiment (RT-X وBridgeData وDROID وما إلى ذلك). ويستفيد كلاهما من بيانات الروبوت المتنوعة وواسعة النطاق. انظر لدينا كتالوج مجموعات البيانات لمصادر البيانات.

الكون المثالى

كلاهما يدعم الضبط الدقيق للروبوت الخاص بك ومهمتك. عادةً، يمكن أن يؤدي 50 إلى 500 عرض توضيحي إلى تحسين الأداء بشكل ملحوظ. يقدم OpenVLA نقاط تفتيش لأنواع مختلفة من الروبوتات. تتميز بنية Octo بالمرونة بالنسبة لمساحات العمل الجديدة.

متى تختار OpenVLA

أنت بحاجة إلى أداء قوي خارج الصندوق في مهام المعالجة الشائعة
الروبوت الخاص بك مشابه لتلك الموجودة في Open X-Embodiment (WidowX، ALOHA، إلخ.)
أنت تريد نموذجًا موثقًا جيدًا ويتم صيانته بشكل نشط

متى تختار Octo

أنت تقوم بتجربة أشكال روبوتية جديدة
تريد أقصى قدر من المرونة لمساحات العمل المخصصة
أنت تعتمد على بيانات Open X-Embodiment مباشرةً

جمع البيانات من أجل الضبط الدقيق

أيًا كان النموذج الذي تختاره، فمن المرجح أنك ستحتاج إلى عروض توضيحية خاصة بالمهمة. نحن نقدم خدمات جمع البيانات للتعلم بالتقليد - التشغيل عن بعد، والتنسيق الجاهز للتعلم، وضمان الجودة. التقاط الأجهزة في نفس اليوم في سان فرانسيسكو للتكرار السريع.

عرض جميع موديلات VLA →