OpenVLA
מודל חזון-שפה-פעולה בקוד פתוח למניפולציה רובוטית. סטנפורד, ברקלי, TRI, Google DeepMind, MIT.
סקירה כללית
OpenVLA הוא דגם 7B-פרמטר ראייה-שפה-פעולה (VLA) שהוכשר על 970K הדגמות רובוטים בעולם האמיתי מ-Open X-Embodiment. הוא משלב את Llama 2 עם מקודדים חזותיים מתמזגים (DINOv2 + SigLIP) ועולה על RT-2-X (55B) ב-16.5% עם 7× פחות פרמטרים.
אדריכלות והדרכה
- 7B פרמטרים
- עמוד השדרה של לאמה 2 + מקודד חזותי DINOv2/SigLIP
- 970K הדגמות מ-Open X-Embodiment
- העברת רובוטים, אפס יריות
- כוונון עדין של LoRA במעבדי גרפי צרכנים
קישורים רשמיים
- openvla.github.io - אתר הפרויקט
- github.com/openvla/openvla - קוד והדרכה
- פנים מחבקות: openvla - מחסומי דגם
צִיטָטָה
CoRL 2025. עיין באתר הפרויקט עבור BibTeX.