← דגמים

OpenVLA

מודל חזון-שפה-פעולה בקוד פתוח למניפולציה רובוטית. סטנפורד, ברקלי, TRI, Google DeepMind, MIT.

סקירה כללית

OpenVLA הוא דגם 7B-פרמטר ראייה-שפה-פעולה (VLA) שהוכשר על 970K הדגמות רובוטים בעולם האמיתי מ-Open X-Embodiment. הוא משלב את Llama 2 עם מקודדים חזותיים מתמזגים (DINOv2 + SigLIP) ועולה על RT-2-X (55B) ב-16.5% עם 7× פחות פרמטרים.

אדריכלות והדרכה

  • 7B פרמטרים
  • עמוד השדרה של לאמה 2 + מקודד חזותי DINOv2/SigLIP
  • 970K הדגמות מ-Open X-Embodiment
  • העברת רובוטים, אפס יריות
  • כוונון עדין של LoRA במעבדי גרפי צרכנים

קישורים רשמיים

צִיטָטָה

CoRL 2025. עיין באתר הפרויקט עבור BibTeX.