לימוד מדיניות

מיפוי תצפיות לפעולות - מדיניות ויזו-מוטורית לבקרת רובוט.

מהי לימוד מדיניות?

מדיניות היא פונקציה הממפה תצפיות (תמונות, מצב) לפעולות (פקודות משותפות, תפסן). למידת מדיניות מאמנת את המיפוי הזה מנתונים (חיקוי) או תגמול (RL). מדיניות Visuomotor משתמשת בראייה כקלט העיקרי.

ארכיטקטורות מפתח

ACT (Action Chunking with Transformers) - מנבא נתחי פעולה; ביצוע חלק.
מדיניות פיזור - דיפוזיה דה-נוזית עבור התפלגות פעולה רב-מודאלית.
שיבוט התנהגות - למידה מפוקחת פשוטה מהדגמות.
VLA - מודלים של חזון-שפה-פעולה (OpenVLA, RT-2) עם התניית שפה.

משאבים קשורים

מודלים של מדיניות - ACT, Diffusion Policy, OpenVLA, Octo
לימוד חיקוי
שירותי נתונים - נתונים להכשרת המדיניות שלך