← النماذج

OpenVLA

نموذج الرؤية واللغة التجريبية المصدر للحاسوب المحمول. ستانفورد، بيركلي، TRI، جوجل ديب مايند، معهد ماساتشوستس القوى.

ملخص

OpenVLA هو نموذج لغة رؤية-حركة (VLA) ذو معلمات 7B تم تدريبه على 970 ألف عرض توضيحي للروبوت في العالم الحقيقي من Open X-Embodiment. فهو يجمع بين Llama 2 وأجهزة التشفير المرئية المندمجة (DINOv2 + SigLIP) ويتفوق على RT-2-X (55B) بنسبة 16.5% مع معلمات أقل بمقدار 7 مرات.

الهندسة المعمارية والتدريب

  • 7B حدود
  • العمود الفقري لـ Llama 2 + برنامج التشفير البصري DINOv2/SigLIP
  • 970K عروض توضيحية من Open X-Embodiment
  • روبوتات متعددة، نقل بدون طلقة
  • ضبط LoRA على وحدات معالجة الرسومات الاستهلاكية

الروابط الرسمية

الاقتباس

CoRL 2025. راجع موقع مشروع BibTeX.