OpenVLA

نموذج الرؤية واللغة التجريبية المصدر للحاسوب المحمول. ستانفورد، بيركلي، TRI، جوجل ديب مايند، معهد ماساتشوستس القوى.

ملخص

OpenVLA هو نموذج لغة رؤية-حركة (VLA) ذو معلمات 7B تم تدريبه على 970 ألف عرض توضيحي للروبوت في العالم الحقيقي من Open X-Embodiment. فهو يجمع بين Llama 2 وأجهزة التشفير المرئية المندمجة (DINOv2 + SigLIP) ويتفوق على RT-2-X (55B) بنسبة 16.5% مع معلمات أقل بمقدار 7 مرات.

الهندسة المعمارية والتدريب

7B حدود
العمود الفقري لـ Llama 2 + برنامج التشفير البصري DINOv2/SigLIP
970K عروض توضيحية من Open X-Embodiment
روبوتات متعددة، نقل بدون طلقة
ضبط LoRA على وحدات معالجة الرسومات الاستهلاكية

الروابط الرسمية

openvla.github.io - موقع المشروع
github.com/openvla/openvla — الكود والتدريب
معانقة الوجه: openvla - نقاط التفتيش النموذجية

الاقتباس

CoRL 2025. راجع موقع مشروع BibTeX.