← البحث

OpenVLA vs Octo: ما هو نموذج تعلم الروبوت الذي يجب اختياره؟

مقارنة عملية للباحثين والبنائين الذين يختارون نموذج الرؤية واللغة والعمل (VLA).

نماذج VLA تحدد الإدراك + اللغة للأفعال

الصور لغة الإجراءات

كلاهما OpenVLA و اوكتو هي نماذج عمل رؤية ولغة مفتوحة المصدر لتعلم الروبوت. وإليك كيفية المقارنة بينهما ومتى يتم استخدام كل منهما.

بنيان

OpenVLA يعتمد على Prismatic VLM ويضيف رؤوسًا للتنبؤ بالحركة. وهو يدعم أشكال الروبوت المتعددة ومساحات العمل. اوكتو يستخدم بنية قائمة على المحولات تم تدريبها على بيانات Open X-Embodiment. كلاهما يلتقط الصور + اللغة وإجراءات الإخراج.

بيانات التدريب

تم تدريب OpenVLA على Open X-Embodiment ومجموعات البيانات الإضافية. تم تدريب Octo على Open X-Embodiment (RT-X وBridgeData وDROID وما إلى ذلك). ويستفيد كلاهما من بيانات الروبوت المتنوعة وواسعة النطاق. انظر لدينا كتالوج مجموعات البيانات لمصادر البيانات.

الكون المثالى

كلاهما يدعم الضبط الدقيق للروبوت الخاص بك ومهمتك. عادةً، يمكن أن يؤدي 50 إلى 500 عرض توضيحي إلى تحسين الأداء بشكل ملحوظ. يقدم OpenVLA نقاط تفتيش لأنواع مختلفة من الروبوتات. تتميز بنية Octo بالمرونة بالنسبة لمساحات العمل الجديدة.

متى تختار OpenVLA

  • أنت بحاجة إلى أداء قوي خارج الصندوق في مهام المعالجة الشائعة
  • الروبوت الخاص بك مشابه لتلك الموجودة في Open X-Embodiment (WidowX، ALOHA، إلخ.)
  • أنت تريد نموذجًا موثقًا جيدًا ويتم صيانته بشكل نشط

متى تختار Octo

  • أنت تقوم بتجربة أشكال روبوتية جديدة
  • تريد أقصى قدر من المرونة لمساحات العمل المخصصة
  • أنت تعتمد على بيانات Open X-Embodiment مباشرةً

جمع البيانات من أجل الضبط الدقيق

أيًا كان النموذج الذي تختاره، فمن المرجح أنك ستحتاج إلى عروض توضيحية خاصة بالمهمة. نحن نقدم خدمات جمع البيانات للتعلم بالتقليد - التشغيل عن بعد، والتنسيق الجاهز للتعلم، وضمان الجودة. التقاط الأجهزة في نفس اليوم في بالو ألتو للتكرار السريع.

عرض جميع موديلات VLA →