OpenVLA
نموذج الرؤية واللغة التجريبية المصدر للحاسوب المحمول. ستانفورد، بيركلي، TRI، جوجل ديب مايند، معهد ماساتشوستس القوى.
ملخص
OpenVLA هو نموذج لغة رؤية-حركة (VLA) ذو معلمات 7B تم تدريبه على 970 ألف عرض توضيحي للروبوت في العالم الحقيقي من Open X-Embodiment. فهو يجمع بين Llama 2 وأجهزة التشفير المرئية المندمجة (DINOv2 + SigLIP) ويتفوق على RT-2-X (55B) بنسبة 16.5% مع معلمات أقل بمقدار 7 مرات.
الهندسة المعمارية والتدريب
- 7B حدود
- العمود الفقري لـ Llama 2 + برنامج التشفير البصري DINOv2/SigLIP
- 970K عروض توضيحية من Open X-Embodiment
- روبوتات متعددة، نقل بدون طلقة
- ضبط LoRA على وحدات معالجة الرسومات الاستهلاكية
الروابط الرسمية
- openvla.github.io - موقع المشروع
- github.com/openvla/openvla — الكود والتدريب
- معانقة الوجه: openvla - نقاط التفتيش النموذجية
الاقتباس
CoRL 2025. راجع موقع مشروع BibTeX.