← מילון מונחים

למידת חיזוק

למידה מניסוי וטעייה - רובוטים שמייעלים התנהגות מאותות תגמול.

מהי למידת חיזוק?

למידת חיזוק (RL) היא פרדיגמה שבה סוכן לומד למקסם את התגמול המצטבר באמצעות אינטראקציה עם סביבה. הסוכן נוקט בפעולות, מקבל תגמולים (או קנסות), ומעדכן את המדיניות שלו כדי להשתפר עם הזמן.

מושגי מפתח

  • אות תגמול - משוב דליל או צפוף המעיד על התקדמות המשימה (למשל, אובייקט נתפס, יעד שהושג).
  • מְדִינִיוּת - מיפוי מתצפיות לפעולות. לעתים קרובות רשתות עצביות (למשל, PPO, SAC).
  • Sim-to-real - התאמן בסימולציה, פריסה על רובוטים אמיתיים. רנדומיזציה של דומיין עוזרת לגשר על הפער.

משאבים קשורים