OpenVLA

מודל חזון-שפה-פעולה בקוד פתוח למניפולציה רובוטית. סטנפורד, ברקלי, TRI, Google DeepMind, MIT.

סקירה כללית

OpenVLA הוא דגם 7B-פרמטר ראייה-שפה-פעולה (VLA) שהוכשר על 970K הדגמות רובוטים בעולם האמיתי מ-Open X-Embodiment. הוא משלב את Llama 2 עם מקודדים חזותיים מתמזגים (DINOv2 + SigLIP) ועולה על RT-2-X (55B) ב-16.5% עם 7× פחות פרמטרים.

אדריכלות והדרכה

7B פרמטרים
עמוד השדרה של לאמה 2 + מקודד חזותי DINOv2/SigLIP
970K הדגמות מ-Open X-Embodiment
העברת רובוטים, אפס יריות
כוונון עדין של LoRA במעבדי גרפי צרכנים

קישורים רשמיים

openvla.github.io - אתר הפרויקט
github.com/openvla/openvla - קוד והדרכה
פנים מחבקות: openvla - מחסומי דגם

צִיטָטָה

CoRL 2025. עיין באתר הפרויקט עבור BibTeX.