מילון מונחים לרובוטיקה

יותר מ-60 מונחים המכסים למידת חיקוי, מודלים של VLA, הפעלה טלפונית, קינמטיקה ובינה מלאכותית מגולמת - נכתב עבור חוקרים, מהנדסים וצוותים ארגוניים.

65 תנאים א–ז מְאוּרגָן מְעוּדכָּן 2026

A

ACT (Action Chunking עם רובוטריקים)

ACT הוא אלגוריתם למידה חיקוי שהוצג על ידי Tony Zhao וחב'. (2023) המאמנת מדיניות מבוססת שנאים לחזות נתח באורך קבוע של פעולות עתידיות ולא פעולה בודדת בכל שלב בזמן. על ידי חיזוי רצפי פעולה בצילום אחד, ACT מפחית את שגיאת ההרכבה האופיינית לשיבוט התנהגותי שלב אחר שלב ומייצר תנועה עקבית זמנית. הארכיטקטורה מקודדת תצפיות RGB ומצב פרופריוצפטיבי באמצעות מקודד בסגנון CVAE ומפענחת נתחי פעולה באמצעות שנאי. ACT הודגם על ALOHA פלטפורמה דו-ידנית, השגת ביצועים חזקים במשימות כמו פתיחת תיק והעברת ביצים. ראה גם: Action Chunking (צלילה עמוקה).

מְדִינִיוּתשַׁנַאילימוד חיקוי

מרחב פעולה

מרחב הפעולה הוא הסט המלא של התפוקות שמדיניות רובוט יכולה לייצר בכל שלב בזמן. עבור זרוע רובוט זה כולל בדרך כלל עמדות מפרקים, מהירויות מפרקים או תנוחות קצה (עמדה קרטזינית + קווטרניון); עבור רובוט נייד הוא כולל מהירויות גלגלים או פקודות היגוי. מרחבי פעולה מתוארים כבדידים (תפריט סופי של פעולות) או כרציפים (וקטורים בעלי ערך אמיתי). הממדיות והייצוג של מרחב הפעולה משפיעים מאוד על כמה קל להכשיר מדיניות יציבה: מרחבי תנוחות דלתא של אפקטי קצה הם לרוב קלים יותר ללמידה חיקוי, בעוד שמרחבי מומנט מפרקים נותנים שליטה עדינה יותר בכוח אך דורשים נורמליזציה זהירה יותר.

מְדִינִיוּתלִשְׁלוֹט

ALOHA (מערכת חומרה בקוד פתוח בעלות נמוכה להפעלה דו-ידנית)

ALOHA היא מערכת טל-פעולה דו-ידנית בקוד פתוח שפותחה בסטנפורד, המורכבת משתי זרועות רובוט ViperX 300 ושתי זרועות מובילות WidowX 250 המותקנות על מסגרת משותפת עם מצלמת שורש כף היד. הוא תוכנן לאסוף נתוני הדגמה באיכות גבוהה בעלות נמוכה - המבנה המקורי הוא מתחת ל-20,000 דולר - ומבסס את ACT ניסויי מדיניות. Mobile ALOHA מרחיב את הפלטפורמה עם בסיס גלגלים, ומאפשר משימות מניפולציה של תנועה בכל הגוף כמו בישול וניקוי. מערכי נתונים של ALOHA זמינים לציבור והפכו לאמת מידה דה-פקטו למחקר מניפולציה דו-ידנית. למידע נוסף ב שירותי נתונים SVRC.

חוּמרָהטלאופרציהדו-ידנית

AMR (רובוט נייד אוטונומי)

רובוט נייד אוטונומי מנווט בסביבתו ללא מסלולים קבועים או הנחיה אנושית, באמצעות חיישנים מובנים (LiDAR, מצלמות, IMU) בשילוב עם אלגוריתמים SLAM, תכנון נתיבים והימנעות ממכשולים. בניגוד ל-AGVs (רכבים מודרכים אוטומטיים) העוקבים אחר פסים מגנטיים, AMR בונים ומעדכנים מפה בזמן אמת ומנתבים מחדש באופן דינמי סביב אנשים וחפצים. מחסנים מודרניים של AMR מחברות כמו Boston Dynamics, Locus Robotics ו-6 River Systems הניעו אימוץ רחב בלוגיסטיקה. AMRs משולבים לעתים קרובות עם זרועות מניפולטור כדי ליצור מניפולטורים ניידים מסוגל לבחור-ומקום בקנה מידה.

רובוטיקה ניידתניווטSLAM

B

שיבוט התנהגותי (לִפנֵי הַסְפִירָה)

שיבוט התנהגותי הוא הצורה הפשוטה ביותר של לימוד חיקוי: בעיית רגרסיה מפוקחת שבה המדיניות מאומנת לחקות הדגמות של מומחים על ידי מזעור שגיאת החיזוי בין הפלט של המדיניות לבין פעולת המומחה בכל מצב שנצפה. BC קל ליישום ומתרחב היטב עם נתונים, אך סובל ממנו שינוי חלוקה - מכיוון שהוא אף פעם לא מקבל משוב מתקן, שגיאות קטנות גורמות לרובוט לבקר במדינות שאינן נוכחות בנתוני האימון, מה שעלול להידרדר לכישלון משימה. טכניקות כמו DAgger (צבירת מערך נתונים) ו-GAIL פותחו במיוחד כדי לטפל בבעיית שגיאת ההרכבה של BC.

לימוד חיקוילמידה מפוקחת

מניפולציה דו-ידנית

מניפולציה דו-ידנית מתייחסת למשימות הדורשות שתי זרועות רובוט הפועלות בתיאום, בדומה לאופן שבו בני אדם משתמשים בשתי הידיים בו זמנית. דוגמאות כוללות קיפול כביסה, קשירת קשרים, פתיחת צנצנות והרכבת חלקים שיש לייצב ביד אחת בזמן שהשנייה מבצעת פעולות עדינות. משימות דו-ידניות קשות יותר באופן משמעותי ממשימות בזרוע אחת, משום שהמדיניות חייבת לתאם שני זרמי פעולה בעלי מימד גבוה תוך כיבוד האילוצים הפיזיים בין הזרועות. ה ALOHA הפלטפורמה נבנתה ייעודית לאיסוף הדגמות דו-ידניות, ו ACT הוא בין המדיניות המובילה לשליטה דו-ידנית.

מָנִיפּוּלָצִיָהחוּמרָה

BOM (כתב חומרים)

בחומרה לרובוטיקה, ה-BOM מפרט כל רכיב, תת-מכלול, מספר חלק, כמות ועלות יחידה הנדרשים לבניית מערכת. BOM מדויקים הם קריטיים להגדלת ייצור, רכש, ניהול סיכונים בשרשרת האספקה ​​ומידול עלויות. עבור פלטפורמות רובוטים בקוד פתוח כגון OpenArm או ALOHA, BOM שפורסם מאפשר לצוותים חיצוניים לשחזר את החומרה ללא תלות קניינית. צוותים ארגוניים שמעריכים פריסת רובוטים מבקשים לעתים קרובות BOM כדי למדוד את עלות הבעלות הכוללת מול חלופות חכירה או רובוט כשירות - השוו אפשרויות ליסינג SVRC.

חוּמרָהייצור

C

מרחב קרטזיאני (מרחב משימות)

מרחב קרטזיאני (נקרא גם מרחב משימה או מרחב תפעולי) מתאר את תצורת הרובוט במונחים של המיקום והכיוון של גורם הקצה שלו ביחס למסגרת עולם או בסיס, המתבטאת בדרך כלל כ(x, y, z, roll, pitch, yaw) או (x, y, z, quaternion). שליטה ברובוט במרחב הקרטזי היא לעתים קרובות יותר אינטואיטיבית ללימוד חיקוי, מכיוון שהדגמות אנושיות ממפות באופן טבעי למסלולי קצה. השינוי מ חלל משותף למרחב הקרטזיאני נקרא קינמטיקה קדימה; ההפך הוא קינמטיקה הפוכה.

קינמטיקהלִשְׁלוֹט

אימון משותף

אימון משותף ברובוטיקה מתייחס לאימון מדיניות יחידה על נתונים ממספר התגלמויות, משימות או סביבות רובוטים בו-זמנית. ההשערה היא שמקורות נתונים מגוונים מלמדים את המדיניות ייצוגים ויזואליים והתנהגותיים חזקים העוברים טוב יותר להגדרות חדשות. ה פתח את X-Embodiment מערך הנתונים הורכב במיוחד כדי לאפשר אימון משותף על פני יותר מ-22 סוגי רובוטים. דגמי יסוד גדולים כמו RT-2 ו-OpenVLA מסתמכים על אימון משותף עם נתוני שפת ראייה בקנה מידה אינטרנט לצד נתוני הדגמה של רובוטים כדי להגדיר הכללה.

הַדְרָכָההַכלָלָהמודל קרן

מניפולציה עשירה במגע

משימות מניפולציה עשירות במגע הן אלה שבהן מגע תכליתי ומתמשך בין הרובוט לסביבה הוא חיוני להצלחת המשימה - כגון הכנסת יתדות לחור, הברגת ברגים, קיפול בד או לישה של בצק. משימות אלו מאתגרות מכיוון ששגיאות מיקום קטנות מייצרות קוצים גדולים בכוח, ובקרי מיקום נוקשים עלולים לפגוע בחלקים או לערער את היציבות של הרובוט. גישות מוצלחות משלבות בקרה תואמת (בקרת עכבה או כניסה), חישת כוח-מומנט, ומדיניות נלמדת שצופה ומנצלת מגע.

מָנִיפּוּלָצִיָהלִשְׁלוֹטחישת כוח

בקרה רציפה

שליטה מתמשכת מתייחסת למדיניות רובוט המפלטת וקטורי פעולה בעלי ערך אמיתי (למשל, מומנטים משותפים, מהירויות או דלתות קרטזיות) במקום בחירה מתוך קבוצה נפרדת של פעולות. רוב משימות המניפולציה של הרובוטים הפיזיים דורשות שליטה מתמשכת מכיוון שלא ניתן לייצג תנועה חלקה ומדויקת כראוי על ידי תפריט פעולה סופי. אלגוריתמי RL עמוקים סטנדרטיים לבקרה רציפה כוללים DDPG, TD3 ו-SAC; ללימוד חיקוי, שיבוט התנהגותי ו מדיניות פיזור משמשים בדרך כלל במרחבי פעולה מתמשכים.

לִשְׁלוֹטלמידת חיזוק

D

הגדלת נתונים (עבור רובוטיקה)

הגדלת נתונים בלימוד רובוטים מיישמת טרנספורמציות אקראיות על תצפיות אימון כדי לשפר את חוסן המדיניות מבלי לאסוף הדגמות נוספות. הגדלות תמונה נפוצות כוללות חיתוך אקראי, ריצוד צבע, טשטוש גאוס וחיתוך. הגדלות מתוחכמות יותר מכסות רקע מסיח את הדעת, משנות את תנאי התאורה או מזרימות רעש חיישן כדי למנוע התאמה יתר למאפיינים חזותיים ספציפיים בסביבת האימון. כמה גישות מגבירות גם פעולות - למשל, הוספת רעש למסלולים משותפים כדי ללמד את המדיניות להתאושש מהפרעות. הגדלה חשובה במיוחד כאשר נתוני ההדרכה יקרים (כל הדגמה דורשת זמן מפעיל אנושי).

הַדְרָכָהאיתנותנְתוּנִים

דרגות חופש (DOF)

דרגות חופש מתארות את מספר הפרמטרים הבלתי תלויים הדרושים לציון התצורה של מערכת מכנית. לזרוע רובוט עם שישה מפרקים מסתובבים יש 6 DOF - מספיק כדי למקם ולכוון את גורם הקצה שלו באופן שרירותי בתוך מרחב העבודה הנגיש שלו (ללא יחודיות). זרוע 7-DOF מוסיפה מפרק מיותר אחד המאפשר אופטימיזציה של מרחב אפס לצורך הימנעות ממכשולים או תנוחות נוחות. לזרועות אנושיות יש בערך 7 DOF בשרשרת כתף-מרפק-פרק כף היד, מה שהופך לרובוטים 7-DOF בחירות טבעיות למניפולציה אנתרופומורפית. בסיסים ניידים מוסיפים 2-3 DOF; דמוי אדם מלא עולה על 30 DOF.

קינמטיקהחוּמרָה

הַפגָנָה

הדגמה (הנקראת גם מסלול או אפיזודה בהקשרי למידה חיקוי) היא רצף מוקלט של תצפיות ופעולות המסופקות על ידי בקר אנושי או מומחה הממחיש כיצד לבצע משימה. הדגמות הן מקור הנתונים העיקרי לשיבוט התנהגותי ואלגוריתמים אחרים של למידה חיקוי. ניתן לאסוף אותם באמצעות טלאופציה, הוראה קינסתטית, או לכידת תנועה. איכות הנתונים - תנועה חלקה, ביצוע משימות עקבי, כיסוי הולם של מרחב המדינה של המשימה - חשובה לא פחות מהכמות עבור ביצועי המדיניות במורד הזרם. SVRC אוסף הדגמות רובוט באיכות ייצור דרך שלנו שירותי נתונים.

נְתוּנִיםלימוד חיקוי

מדיניות פיזור

מדיניות דיפוזיה, שהוצגה על ידי Chi et al. (2023), מנסח את יצירת פעולת הרובוט כתהליך דיפוזיה משפיל - אותו סוג של מודלים מחוללים המשמשים ביצירת תמונות. בזמן היסק, המדיניות משכללת באופן איטרטיבי מדגם של רעש גאוס לרצף של פעולות המותנות בתצפית הנוכחית באמצעות רשת ציונים נלמדת (בדרך כלל CNN או שנאי). בהשוואה לשיבוט התנהגותי דטרמיניסטי, Diffusion Policy מייצגת באופן טבעי רב-מודאלי הפצות פעולה (דרכים תקפות מרובות לביצוע משימה) ומשיגה תוצאות מתקדמות על מדדי מניפולציה עשירים באנשי קשר. ראה את מאמר מפורט.

מְדִינִיוּתמודל גנרטיבילימוד חיקוי

מניפולציה מיומנת

מניפולציה מיומנת מתייחסת למשימות מניפולציה עדינות ומרובות אצבעות המנצלות את מלוא היכולות הקינמטיות והחושיות של יד רובוטית - אחיזה מחדש ביד, גלגול חפצים על קצות האצבעות, חלוקת קלפים, תפירה כירורגית ומשימות דומות. מיומנות דורשתDOF אפקטורי קצה (5+ אצבעות, כל אחת עם 3+ מפרקים), חישה צפופה במישוש ומדיניות המסוגלת לנמק לגבי גיאומטריית מגע מורכבת. למידת חיזוק המאומנת בסימולציה (למשל, Dactyl של OpenAI) ומדיניות מבוססת דיפוזיה אחרונה דחפו את הגבול, אבל מניפולציה זריזה באמינות ברמת האדם נותרה בעיית מחקר פתוחה.

מָנִיפּוּלָצִיָהחוּמרָהגבול המחקר

E

AI גלום

בינה מלאכותית מגולמת מתייחסת למערכות בינה מלאכותית שתופסים ופועלים דרך גוף פיזי הנמצא בעולם האמיתי, במקום לפעול אך ורק על טקסט או תמונות בבידוד. השערת ההתגלמות גורסת כי אינטליגנציה אמיתית דורשת הארקה סנסומוטורית - למידה באמצעות אינטראקציה, לא רק התאמת דפוסים על מערכי נתונים סטטיים. בפועל, מחקר AI גלום כולל למידת רובוטים, דגמי VLA, העברה של sim-to-real ומודלים של בסיס פיזי. חברות כמו Google DeepMind (סדרת RT), בינה פיזית (pi0) ו-NVIDIA (GR00T) הן המניעים התעשייתיים העיקריים. זה של SVRC פלטפורמת נתונים בנוי עבור זרימות עבודה של נתונים בינה מלאכותית.

מודל קרןAI פיזי

אפקטור קצה

ה-end-effector הוא המכשיר בקצה המרוחק של זרוע רובוט שמקיים אינטראקציה ישירה עם הסביבה. זה יכול להיות תפסן לסת מקבילה, כוס יניקה, יד רב אצבעות, לפיד ריתוך, פיית צבע או כל כלי ספציפי למשימה. הפוזה של הגורם הקצה - מיקומו והכיוון שלו במרחב - היא פלט הבקרה העיקרי עבור רוב מדיניות המניפולציה. נקודת מרכז הכלי (TCP) היא נקודת הייחוס באפקטור הקצה המשמש לשליטה קרטזיאנית. בחירת הגורם הקצה הנכון היא החלטת פריסה קריטית: תפסים המותאמים למחלקת אובייקט אחד (למשל, קופסאות קשיחות) עלולים להיכשל בפריטים רכים או לא סדירים. לְדַפדֵף אפשרויות חומרה של SVRC.

חוּמרָהמָנִיפּוּלָצִיָה

אֶפִּיזוֹדָה

פרק הוא ניסיון בודד ושלם של משימה - מהמצב הראשוני ועד להצלחה במשימה, לכישלון או לפסק זמן. בלימוד חיזוק, הסוכן מקיים אינטראקציה עם הסביבה במשך פרק אחד, צובר תגמולים, ואז הסביבה מתאפסת. בלימוד חיקוי, כל הדגמה מוקלטת מהווה פרק אחד. פרקים הם היחידה הבסיסית של מערכי נתונים של למידה של רובוטים: מערך נתונים של 1,000 פרקים מכיל 1,000 ניסיונות משימות עם תצפיות, פעולות ותוצאות קשורות. יש להגדיר במדויק את אורך הפרק, תנאי האיפוס וקריטריוני ההצלחה כדי להבטיח איסוף נתונים עקבי.

נְתוּנִיםלמידת חיזוקלימוד חיקוי

חיצוניות (מַצלֵמָה)

מאפיינים חיצוניים של המצלמה מגדירים את המיקום והכיוון (תנוחת 6-DOF) של מצלמה ביחס למסגרת ייחוס - בדרך כלל בסיס הרובוט או גורם הקצה. יחד עם פרמטרים מהותיים (אורך מוקד, נקודה עיקרית, עיוות עדשה), החיצוניות מאפשרות הקרנת נקודות עולם תלת-ממדיות על מישור התמונה, ולהיפך, העלאת זיהויים דו-ממדיים לחלל תלת-ממד. כיול חיצוני מדויק הוא קריטי עבור מדיניות ויזו-מוטורית שחייבת למפות תצפיות חזותיות לפעולות רובוט במסגרת קואורדינטות עקבית. מצלמות עין ביד (מותקנות בפרק כף היד) דורשות כיול מחדש כאשר מחליפים את אפקט הקצה או המצלמה.

תְפִיסָהכִּיוּל

F

חיישן מומנט כוח (חיישן FT)

חיישן כוח-מומנט מודד את מפתח הברגים בעל שישה צירים (שלושה כוחות Fx, Fy, Fz ושלושה מומנטים Tx, Ty, Tz) המופעלים על פרק כף היד של רובוט או גורם קצה. חיישני FT חיוניים למשימות עשירות במגע והרכבה שבהן בקרת מיקום טהורה מחמיצה מגעים או תפעיל כוח מופרז. הם מאפשרים לולאות בקרת עכבה וכניסה, מזהים החלקה והתנגשות, ומספקים תשומות תחושתיות עשירות למדיניות נלמדת. חיישני FT בעלי דיוק גבוה מבית ATI ו-Robotiq הם סטנדרטיים במעבדות מחקר; חיישנים בעלות נמוכה מבוססי MEMS יותר ויותר כדאיים לפריסות ייצור.

חוּמרָהחישהלִשְׁלוֹט

מודל קרן (רובוטיקה)

מודל יסוד הוא רשת עצבית גדולה שהוכשרה מראש על נתונים רחבים ומגוונים שניתן להתאים למשימות רבות במורד הזרם באמצעות כוונון עדין או הנחיה. ברובוטיקה, מודלים בסיסיים הם בדרך כלל מודלים גדולים של שפת ראייה (VLM) המורחבים עם פלטי פעולה ליצירת VLAs, או מדיניות ויזו-מוטורית גדולה מאומנת על מערכי נתונים צולבים. דוגמאות כוללות RT-2 (Google DeepMind), OpenVLA, Octo ו-pi0 (אינטליגנציה פיזית). מודלים של בסיס לרובוטיקה מושכים מכיוון שהם יכולים למנף אימון מקדים בקנה מידה אינטרנט, לתמוך בהתניית שפה ולהכליל בין משימות ללא אימון מחדש לכל משימה מאפס. לִרְאוֹת קטלוג דגמי SVRC.

VLAאימון מקדיםהַכלָלָה

קינמטיקה קדימה (FK)

קינמטיקה קדימה מחשבת את תנוחת האפקטור הקצה במרחב הקרטזיאני בהינתן זוויות המפרקים של הרובוט (או תזוזות עבור מפרקים מנסרים). עבור רובוט שרשרת טורית, FK מחושב על ידי הכפלת רצף של מטריצות טרנספורמציה הומוגניות (אחת לכל מפרק), הנגזרות בדרך כלל מפרמטרים של Denavit-Hartenberg (DH) או תיאור URDF. ל-FK תמיד יש פתרון ייחודי - בהינתן זוויות המפרק, יש בדיוק תנוחת קצה אחת - בניגוד לבעיה ההפוכה (IK), שעשויים להכיל אפס, אחד או פתרונות רבים. FK משמש בסימולציה, בדיקת התנגשות, הדמיה וניטור מצב רובוט בזמן אמת.

קינמטיקהלִשְׁלוֹט

G

הַכלָלָה (מדיניות רובוטים)

הכללה מודדת את הביצועים של מדיניות רובוט על אובייקטים, סצנות או משימות שהיא לא ראתה במהלך האימון. זהו האתגר המרכזי של למידת רובוטים: למדיניות המשננת הדגמות אימון אך נכשלת במקרים חדשים אין ערך מעשי. החוקרים מבחינים בהכללת אובייקט (מופעים חדשים של קטגוריות ידועות), הכללת קטגוריות (מחלקות אובייקטים חדשות לגמרי), והכללת משימות (ביטויי הוראות חדשים או תצורות יעדים). שיפור ההכללה דורש בדרך כלל נתוני אימון גדולים ומגוונים יותר, אימון משותף עם נתוני אינטרנט, אקראי תחום בסימולציה, ו מודל יסוד קודמים.

מְדִינִיוּתגבול המחקר

תנוחת אחיזה

תנוחת אחיזה מציינת את המיקום והכיוון של 6-DOF של יד רובוט או תפסן ביחס לחפץ כך שהתפסן יכול לסגור ולהחזיק את האובייקט בצורה מאובטחת. הערכת תנוחות האחיזה נעשית בדרך כלל מנתוני עומק או ענן נקודה באמצעות שיטות אנליטיות (למשל, דגימת אחיזה אנטי-פודלית) או גלאים נלמדים כגון GraspNet-1Billion, GQ-CNN או AnyGrasp. תנוחת אחיזה תקפה חייבת להיות נגישה על ידי הרובוט, ללא התנגשות במהלך הגישה ויציבה תחת עומסי המשימות הצפויים. מדדי איכות אחיזה כוללים סגירה בכוח, יציבות מגע והתנגדות מפתח ברגים ספציפיים למשימה.

מָנִיפּוּלָצִיָהתְפִיסָה

תפסן

תפסן הוא המעמד הנפוץ ביותר של רובוטים גורם קצה, שנועד לאחוז ולהחזיק חפצים. תפסי לסת מקבילים הם הפשוטים והנפוץ ביותר, עם שתי אצבעות מנוגדות המונעות על ידי מנוע או פנאומטיקה. תפסי יניקה משתמשים בוואקום כדי לבחור משטחים חלקים וישרים. תפסנים רכים משתמשים בחומרים תואמים (סיליקון, בד) כדי להתאים את עצמם סביב חפצים לא סדירים. ידיים מרובות אצבעות (3-5 אצבעות) מאפשרות מניפולציה מיומנת אבל קשים יותר לשליטה ויקרים יותר. בחירת האוחז תלויה באופן קריטי בגיאומטריית האובייקט, מאפייני פני השטח, המטען הנדרש והאם יש צורך בכיוון מחדש ביד.

חוּמרָהאפקטור קצה

H

HDF5 (פורמט נתונים היררכי v5)

HDF5 הוא פורמט קבצים בינארי וספרייה לאחסון וגישה למערכי נתונים מדעיים גדולים ומובנים ביעילות. ברובוטיקה, HDF5 הוא המיכל הסטנדרטי עבור מערכי נתונים להדגמה של רובוטים: קובץ בודד מאחסן תמונות מצלמה מסונכרנות, זוויות מפרקים, מצבי אחיזה, קריאות כוח ומטא נתונים בקבוצות היררכיות, עם קלט/פלט מנותק המאפשר גישה אקראית מהירה במהלך האימון. המערכות האקולוגיות LeRobot ו-ALOHA משתמשות שניהם ב-HDF5 באופן מקורי. האלטרנטיבה זר הפורמט מציע אחסון מנותק מקורי בענן עם תמיכה טובה יותר בכתיבה במקביל. של SVRC צינורות איסוף נתונים פלט HDF5 כברירת מחדל.

נְתוּנִיםאִחסוּןהַנדָסָה

רובוט דמוי אדם

לרובוט דמוי אדם יש מבנה גוף הדומה באופן כללי לאדם - בדרך כלל פלג גוף עליון, שתי רגליים, שתי ידיים וראש - המאפשר לו לפעול בסביבות המיועדות לאנשים ולהשתמש בכלים אנושיים. דמויי אדם בולטים כוללים את Boston Dynamics Atlas, Agility Robotics Digit, איור 01 וטסלה Optimus. דמויות אנושיות מציגות אתגרים הנדסיים קיצוניים: תנועה דו-פדאלית דורשת בקרת איזון בזמן אמת, ותיאום 30+ DOF לדרישות של משימות מניפולציה בתנועה שליטה על כל הגוף. למרות המורכבות הזו, דמויי אנוש מושכים השקעות עצומות מכיוון שגורם הצורה שלהם מתכלל במקומות עבודה מגוונים ללא שינויים בתשתית.

חוּמרָהתְנוּעָהדו-ידנית

אינטראקציה בין אדם לרובוט (HRI)

אינטראקציה בין אדם לרובוט היא תחום בינתחומי החוקר כיצד אנשים ורובוטים מתקשרים, משתפים פעולה וחולקים מרחב פיזי בצורה יעילה ובטוחה. מחקר HRI מקיף תקני בטיחות (ISO/TS 15066 עבור רובוטים שיתופיים), עיצוב ממשק משתמש להפעלה טלפונית, הוראת שפה טבעית, תנועת רובוט קריא (הפיכת כוונת הרובוט לקריאה לעוברי אורח), ורובוטיקה חברתית (שימוש במבט, מחוות ודיבור לתקשורת לא מילולית). בפריסות שותפות תעשייתיות, HRI קובע ישירות אם עובדים מקבלים ומשתמשים ביעילות ברובוטים לצדם. עיצוב HRI טוב מפחית תאונות, משפר את התפוקה ומוריד את עומס האימון בצד האנושי.

בְּטִיחוּתשיתוף פעולה

I

לימוד חיקוי (IL)

למידת חיקוי היא משפחה של שיטות למידת מכונה המאמנות מדיניות רובוטים מהדגמות אנושיות ולא מפונקציות תגמול מהונדסות. הצורה הפשוטה ביותר היא שיבוט התנהגותי (רגרסיה מפוקחת על צמדי מצב-פעולה). גרסאות מתקדמות יותר - DAgger (תיקון איטרטיבי), GAIL (חיקוי אדוורסרי) ו-IRL (שחזור פונקציית תגמול) - מטפלות בבעיות של שינוי התפלגות ופרטי התגמול שמציקות לפני הספירה הטהורה. IL הפכה לפרדיגמה הדומיננטית להוראת מניפולציה מיומנת מכיוון שהנדסת תגמול עבור מניפולציה מורכבת היא קשה ביותר, בעוד שאיסוף הדגמות אנושיות ניתן לפתרון בקנה מידה באמצעות טלאופציה. ראה את מאמר עומק מלא.

קונספט ליבהמְדִינִיוּתנְתוּנִים

קינמטיקה הפוכה (אֲנִי)

קינמטיקה הפוכה פותרת את זוויות המפרק שממקמות את הגורם הקצה של הרובוט בתנוחה קרטזיאנית רצויה. שׁוֹנֶה קינמטיקה קדימה, IK עשוי להיות אפס, אחד או אינסוף פתרונות בהתאם למבנה הקינמטי של הרובוט ולתנוחת המטרה. פותרי IK אנליטיים קיימים עבור תצורות 6-DOF סטנדרטיות; שיטות מספריות (Jacobian pseudo-inverse, Newton-Raphson, מבוססות אופטימיזציה) מטפלות בגיאומטריות שרירותיות וברובוטים מיותרים. IK משמש בתכנון תנועה, מיפוי טלאופרציה (המרת תנוחת יד של המפעיל לפקודות משותפות), וכל בקר קרטזיאני-חלל. ספריות כמו KDL, IKFast ו-track-ik משמשות בדרך כלל בסביבות ROS.

קינמטיקהלִשְׁלוֹטתִכנוּן

אייזק סים

NVIDIA Isaac Sim היא פלטפורמת הדמיית רובוטיקה הבנויה על המסגרת של Omniverse USD, ומספקת פיזיקה של נאמנות גבוהה (דרך PhysX 5), עיבוד פוטו-ריאליסטי (דרך מעקב אחר נתיב RTX), ושילוב ROS 2 מהקופסה. הוא נבנה ייעודי להפקת נתוני אימון סינתטיים, בדיקת מדיניות רובוטים ומחקר העברה מ-sim-to-real. Isaac Sim תומך באקראי תחום של מרקמים, תאורה ותנוחות אובייקט בקנה מידה, ומשתלב עם מסגרת הלמידה לחיזוק Isaac Lab של NVIDIA. הפיזיקה המואצת של ה-GPU מאפשרת אימון מדיניות RL עם אלפי מופעי סימולציה מקבילים. למידע נוסף ב- דף המשאבים של SVRC Isaac Sim.

הַדמָיָהנתונים סינתטייםכְּלִי

J

מרחב משותף (מרחב תצורה)

מרחב משותף (נקרא גם מרחב תצורה או C-space) הוא המרחב של כל וקטורי זווית המפרק האפשריים לרובוט. נקודה בחלל המשותף מציינת באופן ייחודי את התצורה המלאה של הרובוט. אלגוריתמים לתכנון תנועה כמו RRT ו-PRM פועלים במרחב משותף כדי למצוא נתיבים ללא התנגשות בין תצורות, מכיוון שבדיקת התנגשות פשוטה יותר שם מאשר בחלל הקרטזיאני. פוליסות רבות של RL מוציאות מיקומים או מהירויות משותפות ישירות במרחב המשותף, בעוד שמדיניות למידה חיקוית פועלת לעתים קרובות מרחב קרטזיאני ליישור קל יותר בין אדם למפגין. ראה את מאמר חלל משותף.

קינמטיקהתִכנוּן

מומנט מפרק

מומנט המפרק הוא כוח הסיבוב המופעל על ידי מנוע במפרק רובוט, הנמדד בניוטון-מטר (Nm). רובוטים נשלטי מומנט (בניגוד לאלו המבוקרים במיקום) יכולים לווסת כוחות מגע ישירות, ולאפשר התנהגויות תואמות כמו כניעה בעת דחיפה ושליטה מדויקת בכוחות ההרכבה. חישת מומנט בכל מפרק היא תכונה מרכזית של רובוטים שיתופיים (קובוטים) כמו Franka Panda, סדרת Universal Robots UR ו-Kuka iiwa, המאפשרת שיתוף פעולה בטוח בין אדם לרובוט ובקרה תואמת לכל הגוף. מדיניות למידה המוציאה מומנטים מפרקים ולא עמדות דורשת הכשרה קפדנית כדי למנוע תנודות לא יציבות.

לִשְׁלוֹטחוּמרָהכּוֹחַ

K

שרשרת קינמטית

שרשרת קינמטית היא סדרה של חוליות גוף קשיחות המחוברות במפרקים היוצרים יחד את המבנה המכני של הרובוט. לשרשרת פתוחה (זרוע רובוט סדרתית) יש קצה חופשי אחד (ה-End-effector), מה שהופך את FK לפשוטה. לשרשרת סגורה (רובוט מקביל, משושה) יש מספר לולאות המספקות קשיחות ומהירות גבוהות יותר אך דורשות קינמטיקה מורכבת יותר. השרשרת הקינמטית קובעת את מרחב העבודה של הרובוט, את הייחודיות ואת המטריצה ​​היעקוביאנית המשמשת לשליטה קרטזית. קבצי URDF מתארים שרשראות קינמטיות כעץ של קישורים ומפרקים לתוכנות סימולציה ובקרה.

קינמטיקהמֵכָנִיקָה

הוראה קינסתטית

הוראה קינסתטית (נקראת גם מובילה-אחר-אף או הנחיה ישירה) היא שיטה לתכנות רובוט שבה אדם תופס פיזית את זרוע הרובוט ומניע אותה בנתיב התנועה הרצוי בזמן שהרובוט מתעד את המסלול. זה דורש שהרובוט יהיה ניתן לנהיגה לאחור (חיכוך מפרק נמוך ותאימות) כך שהמפעיל יוכל להזיז אותו במינימום מאמץ. הוראה קינסתטית היא אינטואיטיבית ואינה דורשת חומרה חיצונית, אך היא מוגבלת למשימות שהמפעיל יכול להדגים פיזית, והיא מייצרת רק נתונים פרופריוצפטיביים (ללא תצפיות במצלמות שורש כף היד), אלא אם מצלמות מוקלטות יחד. מצב פיצוי כבידה ברובוטים הנשלטים במומנט כמו פרנקה פנדה הופך את ההוראה הקינסתטית למעשית.

איסוף נתוניםלימוד חיקוי

L

מדיניות מותנית בשפה

מדיניות מותנית בשפה לוקחת הוראה בשפה טבעית (למשל, "הרים את הספל האדום והנח אותו על המגש") כקלט נוסף לצד תצפיות חזותיות, מה שמאפשר לרשת מדיניות אחת לבצע משימות מרובות שנבחרו בזמן ריצה ללא אימון מחדש. התניית שפה מיושמת בדרך כלל על ידי קידוד הוראות עם מודל שפה מיומן מראש (CLIP, T5, PaLM) ומיזוג ההטמעה המתקבלת עם תכונות תמונה. דגמי VLA כגון RT-2, OpenVLA ו-pi0 מותנים בשפה בעיצוב. גישה זו מפחיתה את הצורך בהכשרת מדיניות נפרדת לכל משימה ותומכת בהכללה אפסית לביטויי הוראות חדשים.

VLAמודל קרןהַכלָלָה

מרחב סמוי

מרחב סמוי הוא ייצוג דחוס במימד נמוך יותר של נתונים שנלמדו על ידי רשת עצבית - פלט של מקודד הלוכד את התכונות הרלוונטיות ביותר למשימה של תצפית. בלימוד רובוטים, נעשה שימוש במרחבים סמויים ב-VAEs (מקודדים אוטומטיים וריאציוניים) ללימוד ייצוגים מובנים של סצנות חזותיות, במודלים עולמיים לחיזוי מצבים עתידיים, ובמדיניות מבוססת CVAE (כמו ACT) לקידוד הפצות פעולה רב-מודאלית. מרחב סמוי מובנה היטב מציב תצפיות דומות מבחינה סמנטית קרוב זו לזו, מה שמאפשר אינטרפולציה, תכנון והגדלת נתונים בתחום הסמוי ולא במרחב הפיקסלים הגולמי.

למידת ייצוגמְדִינִיוּת

LeRobot

LeRobot היא ספריית הקוד הפתוח של Hugging Face ללימוד רובוטים, המספקת יישומים סטנדרטיים של אלגוריתמי למידה חיקוי (ACT, מדיניות פיזור, TDMPC), פורמט מערך נתונים מאוחד, כלי הדמיה ומשקולות מודל מאומנות מראש. מטרתו להוריד את מחסום הכניסה לחקר למידת רובוטים על ידי מתן מסגרת מגובשת אחת הדומה למה שעשו רובוטריקים עבור NLP. LeRobot משתלב עם Hugging Face Hub לשיתוף נתונים ומודלים, ותומך בסביבות מדומה (חדר כושר-רובוטיקה, MuJoCo) וגם בסביבות רובוט פיזיות. ערכת הרובוטים הנלווים SO-100 בעלות נמוכה שוחררה לצדה.

כְּלִיקוד פתוחלימוד חיקוי

ערכת נתונים של LeRobot HF

פורמט הנתונים של LeRobot הוא סכימה סטנדרטית עבור נתוני הדגמה של רובוטים המתארחים ב-Hugging Face Hub. כל מערך נתונים מורכב מקובצי Parquet (לסדרות זמן סקלריות: עמדות משותפות, פעולות, תגמולים, דגלים שנעשו) בתוספת נתחי וידאו דחוסים של MP4 עבור זרמי מצלמות, כולם באינדקס לפי פרק ומסגרת. א meta/info.json הקובץ מתאר שמות מצלמה, סוג רובוט, fps וסטטיסטיקות נתונים המשמשים לנורמליזציה. פורמט זה מאפשר לכל אלגוריתם תואם LeRobot לטעון כל מערך נתונים שפורסם עם שורת קוד אחת, מה שמאפשר ניסויים מהירים בין מערכי נתונים. עשרות מערכי נתונים של מניפולציה ומניפולציה ניידת כבר פורסמו בפורמט זה.

נְתוּנִיםתֶקֶןקוד פתוח

M

מָנִיפּוּלָצִיָה

מניפולציה מתייחסת לאינטראקציה פיזית מכוונת עם חפצים - איסוף, מיקום, הרכבה, קיפול, הכנסת, מזיגה ומשימות דומות. מניפולציה של רובוטים היא אחד מתחומי המחקר הפעילים ביותר ב-AI גלום, מכיוון שאפילו משימות יומיומיות פשוטות (העמסת מדיח כלים, פתיחת חבילה) דורשות תפיסה עשירה, שליטה מוטורית מדויקת ותכנון אחיזה חזק. קשיי המניפולציה משתנים מבחירה-ומקום פשוטה עם אובייקטים מוכרים בהגדרות קבועות, דרך הרכבה עשירה במגע, ועד לכיוון מחדש מיומן לחלוטין ביד עם אובייקטים חדשים בסצנות לא מובנות. של SVRC שירותי נתונים מתמחים באיסוף הדגמות מניפולציות להדרכה והערכה.

קונספט ליבהמְשִׁימָה

MoveIt

MoveIt היא המסגרת הנפוצה ביותר לתכנון תנועה בקוד פתוח עבור זרועות רובוטים, שפותחה במקור ב-Willow Garage וכעת מתוחזקת על ידי PickNik Robotics. MoveIt 2 פועל על ROS 2 ומספק למתכננים (OMPL, CHOMP, PILZ), תכנון מסלול קרטזיאני, בדיקת התנגשות מול סצנת התכנון של MoveIt, תוספים לקינמטיקה (KDL, IKFast, TracIK) ושילוב תכנון. זוהי שכבת התווך הסטנדרטית בין מדיניות למידה של רובוט (אשר מפיקה תנוחות או נקודות ציון רצויות של גורם קצה) לבין הבקר המשותף ברמה נמוכה שמבצע מסלולים חלקים ונטולי התנגשות על הרובוט הפיזי.

כְּלִיתִכנוּןROS

למידה מרובה משימות

למידה מרובה משימות מכשירה מדיניות יחידה על הדגמות ממספר משימות נפרדות בו-זמנית, מתוך ציפייה שייצוגים משותפים שנלמדו על פני משימות ישפרו את הביצועים בכל משימה בודדת ויאפשרו הכללה למשימות חדשות. ברובוטיקה, זה אומר לעתים קרובות אימון על מאות משימות עם אובייקטים, מטרות וסביבות מגוונות. האתגר המרכזי הוא לאזן בין תרומות השיפוע של משימות שונות (הפרעות שיפוע) ולהבטיח שהמדיניות יכולה להבחין בין משימות בזמן הסקת מסקנות - בדרך כלל באמצעות התניה של שפה או מזהי משימה חמה אחת. מדיניות ריבוי משימות היא תנאי מוקדם לעוזרים רובוטיים למטרות כלליות.

מְדִינִיוּתהַכלָלָההַדְרָכָה

N

מדיניות עצבית

מדיניות עצבית היא מדיניות בקרת רובוט המתואמת על ידי רשת עצבית הממפה תצפיות (תמונות, פרופריוספציה, שפה) ישירות לפעולות (עמדות מפרקים, דלתות קרטזיות, פקודות תפסן). בניגוד לצינורות תכנון תנועה קלאסיים, מדיניות עצבית לומדת את המיפוי מקצה לקצה מנתונים ללא ייצוגי ביניים מהונדסים ביד. מדיניות עצבית מודרנית משתמשת במקודדים קונבולוציוניים עבור חזון, שנאים עבור מודל רצף וארכיטקטורות כמו ACT, Diffusion Policy או עמודי שדרה של VLA ליצירת פעולה. תכונה מרכזית של מדיניות עצבית היא שניתן לאמן אותם מהדגמות או אותות תגמול, מה שמאפשר להם להתמודד עם משימות מורכבות מדי עבור בקרים מקודדים ביד.

מְדִינִיוּתלמידה עמוקה

מניפולציה ללא תקיעה

מניפולציה ללא תקיעה מתייחסת למניפולציה של חפצים מבלי לתפוס אותם - במקום זאת באמצעות דחיפה, גלגול, סיבוב, היפוך, הטיה או אסטרטגיות מגע אחרות הממנפות את כוח הכבידה וחיכוך פני השטח. לדוגמה, דחיפת קופסה על פני שולחן כדי למקם אותה, או דחיפה של יתד זקוף לפני אחיזה בה. אסטרטגיות שאינן מתאימות יכולות להזיז אובייקטים לתצורות ניתנות לאחיזה, למקם מחדש פריטים גדולים מכדי לתפוס אותם, או לעבוד בסצנות עמוסות שבהן גישת אחיזה אינה ניתנת לביצוע. תכנון פעולות שאינן מתאימות דורש מודלים של מכניקת אובייקטים כמו-סטטית או דינמית ופיזיקה של מגע, מה שהופך אותו לנושא מחקר פעיל בצומת של מניפולציה ותכנון תנועה.

מָנִיפּוּלָצִיָהתִכנוּן

O

מרחב תצפית

מרחב התצפית מגדיר את כל כניסות החיישנים הזמינות למדיניות הרובוט בכל שלב זמן. השיטות הנפוצות כוללות תמונות RGB ממצלמות פרק כף היד או מצלמות עיליות, מפות עומק מחיישני אור מובנה או סטריאו, מצב פרופריוצפטיבי (מיקומי מפרקים, מהירויות, מומנטים), מצב תפסן, תנוחת קצה, קריאות מישוש וכניסות למפרט משימה כמו הטבעת שפה או תמונות מטרה. עיצוב מרחב התצפית משפיע באופן עמוק על ביצועי המדיניות והכללה: תצפיות עשירות יותר נושאות מידע רב יותר אך מגדילות את מורכבות המודל, זמן האימון והסיכון להתאמת יתר למאפיינים חזותיים לא רלוונטיים.

תְפִיסָהמְדִינִיוּת

שליטה בלולאה פתוחה

בקרת לולאה פתוחה מבצעת מסלול מתוכנן מראש מבלי להשתמש במשוב חיישן במהלך הביצוע - הרובוט פשוט עוקב אחר המיקומים או המהירויות שנקבעו ללא קשר למה שקורה בפועל. זה מתאים למשימות שניתן לחזור עליהן מאוד בסביבות מבוקרות, כגון עיבוד CNC או איסוף-ומקום על מסוע קבוע. בקרת לולאה פתוחה היא מהירה ופשוטה אך נכשלת כאשר מתרחשות הפרעות, מכיוון שלא ננקטת פעולה מתקנת. לעומת זאת, בקרת לולאה סגורה (משוב) משווה באופן רציף את המצב בפועל למצב הרצוי ומחילה פקודות מתקנות, מה שהופך אותו להרבה יותר חזק עבור למידת רובוטים בסביבות משתנות.

לִשְׁלוֹט

פתח את X-Embodiment

Open X-Embodiment (OXE) הוא מערך נתונים להדגמה של רובוטים בקנה מידה גדול שהורכב על ידי Google DeepMind ו-33 מוסדות מחקר, הכולל למעלה ממיליון פרקי רובוט מ-22 התגלמויות רובוט שונות ויותר מ-527 מיומנויות. זה נוצר כדי לאפשר אימון משותף על פני התגלמות - ההשערה היא שחווית רובוטים מגוונת מלמדת ייצוגי מניפולציה עשירים יותר מאשר מערכי נתונים של רובוט בודד בלבד. RT-X, המודל שהוכשר על OXE, הוכיח העברה חיובית בין התגלמויות וביצועים משופרים במשימות ממושכות בהשוואה לקווי בסיס של התגלמות בודדת. נתוני OXE זמינים לציבור וזירזו גל של מחקר רובוטיקה צולב התגלמות.

מערך נתוניםמודל קרןריבוי התגלמות

P

מטען

מטען הוא המסה המקסימלית (כולל המשקל של כל אפקטור קצה וכלי עבודה) שזרוע רובוט יכולה לשאת תוך שמירה על דיוק המיקום והביצועים הדינמיים שלה. מפרטי מטען נעים בדרך כלל בין פחות מ-1 ק"ג עבור רובוטים למחקר שיתופי (WidowX 250: 250 גרם) ועד 500+ ק"ג עבור זרועות תעשייתיות גדולות. באופן קריטי, מטען מדורג מצוטט בדרך כלל בטווח מלא עם הזרוע מושטת במלואה; בטווח קרוב יותר ותנוחות טובות יותר, רובוטים יכולים לעתים קרובות להתמודד עם הרבה יותר. חריגה ממגבלות המטען פוגעת ברמת הדיוק, מאיצה בלאי ויכולה לעורר תקלות בטיחות או נזק פיזי. של SVRC קטלוג חומרה מפרט מטען עבור כל רובוט.

חוּמרָהמפרט

מְדִינִיוּת (רוֹבּוֹט)

בלמידת רובוטים, מדיניות (המסומנת π) היא פונקציה הממפה תצפיות לפעולות: π(o) → a. המדיניות היא ה"מוח" המלומד של הרובוט שקובע מה לעשות בכל שלב בזמן בהתחשב במה שהוא תופס. מדיניות יכולה להיות מיוצגת כרשתות עצביות (מדיניות עצבית), עצי החלטה, תהליכי גאוס או טבלאות חיפוש. הם יכולים להיות דטרמיניסטיים (פעולה אחת לכל תצפית) או סטוכסטיות (התפלגות על פעולות). איכות המדיניות נמדדת לפי שיעור הצלחת המשימה בתנאים מגוונים, לא רק בהדגמות הדרכה. אתגר הליבה של למידת רובוטים הוא מדיניות אימון שמכללה בצורה מהימנה מעבר להפצת ההכשרה שלהן.

קונספט ליבהלמידה עמוקה

השקת מדיניות

השקת מדיניות היא פרק בודד של ביצוע מדיניות מאומנת על הרובוט (או בסימולציה) ממצב ראשוני ועד להשלמת משימה או פסק זמן. השקות משמשות להערכת ביצועי מדיניות, לאיסוף נתונים חדשים להדרכה נוספת (כמו בכוונון עדין של DAgger או RL), וניפוי באגים במצבי כשל. מספר ההשקה הדרוש להערכת ביצועים אמינה תלוי בשונות המשימות - משימות בעלות שונות גבוהה עשויות לדרוש 50+ השקות כדי לקבל אומדן יציב של אחוזי הצלחה. במחקר, השקות לרוב מסווגות לפי מצב התחלתי (בת-הפצה לעומת אובייקטים/סצנות מחוץ להפצה) כדי לאפיין הכללה.

הַעֲרָכָהמְדִינִיוּת

אימון מקדים

אימון מקדים הוא השלב של פיתוח המודל שבו רשת עצבית מאומנת על מערך נתונים גדול ומגוון לפני כוונון עדין ספציפי למשימה. עבור מודלים של בסיס רובוטיקה, אימון מקדים עשוי להתרחש על נתוני שפת ראייה בקנה מידה אינטרנט (תמונות, וידאו, טקסט), מערכי נתונים של רובוטים צולבים (Open X-Embodiment), נתוני סימולציה סינתטיים או שילוב. המודל שהוכשר מראש לומד ייצוגים כלליים עשירים של אובייקטים, פעולות ומושגים שעוברים למשימות רובוט במורד הזרם עם הרבה פחות הדגמות מאשר אימון מאפס. אימון מקדים הוא המנגנון מאחורי הצלחתם של דגמי VLA כגון RT-2, הנהנה מאימון מקדים בקנה מידה רובוטי ואינטרנט כאחד.

מודל קרןהַדְרָכָההעבר למידה

Q

פונקציית Q (פונקציית פעולה-ערך)

הפונקציה Q(s, a) מעריכה את התגמול המצטבר המוזל הצפוי שסוכן יקבל על ידי נקיטת פעולה א' במדינות ולאחר מכן ביצוע מדיניות נתונה לאחר מכן. פונקציות Q הן מרכזיות באלגוריתמי למידה חיזוקים כגון DQN (פעולות בדידות) ו-SAC, TD3 ו-DDPG (פעולות מתמשכות). ברובוט RL, למידה של פונקציות Q מדויקות עבור משימות מניפולציה ארוכות אופק היא מאתגרת מכיוון שהתגמולים דלילים ומרחב הפעולה של המדינה הוא ממדים גבוהים. עבודה אחרונה ב-RL לא מקוון (IQL, CQL) משתמשת בפונקציות Q כדי לחלץ מדיניות ממערכי נתונים קבועים ללא אינטראקציה מקוונת, ומגשרת על הפער בין למידת חיקוי ל-RL.

למידת חיזוקפונקציית ערך

מניפולציה מעין סטטית

מניפולציה כמו-סטטית מניחה שהתנועה איטית מספיק כדי שכוחות אינרציאליים ודינאמיים יהיו זניחים - המערכת נמצאת למעשה בשיווי משקל סטטי בכל רגע. הפשטות זו מאפשרת מודלים של מכניקת מגע ניתנת לפתרון לתכנון פעולות דחיפה, הזזה, סיבוב וחיטוי ביד. מדדי מניפולציה רבים של רובוטים (כולל רוב משימות הבחירה והמקום של השולחן) פועלות במשטר הכמו-סטטי. כאשר משימות כוללות זריקות מהירות, תפיסות דינמיות או הרכבה במהירות גבוהה, הנחות מעין-סטטיות מתקלקלות ונדרשת דינמיקה מלאה של גוף קשיח עם הדמיית מגע (למשל, MuJoCo, Isaac Sim).

מָנִיפּוּלָצִיָהמֵכָנִיקָה

R

העברה אמיתית לסים

העברה אמיתית לסים (ההשלמה של sim-to-real) כולל בנייה או כיול של סימולציה שתתאים לעולם האמיתי ככל האפשר - בעצם בניית תאום דיגיטלי של תנאים אמיתיים. זה משמש כדי להשמיע מחדש מקרי כשל אמיתיים בסימולציה, ליצור נתוני אימון סינתטיים נוספים המותאמים למאפייני החיישן האמיתיים ולבדוק עדכוני מדיניות בבטחה לפני הפריסה. הטכניקות כוללות שחזור סצנה פוטוגרמטרית, זיהוי פרמטרים בפיזיקה (זיהוי מערכת) ושיטות עיבוד עצבי (NeRF, 3D Gaussian Splatting) כדי להתאים את מראה המצלמה. צינורות מדויקים של ממש ל-sim מפחיתים באופן דרמטי את מספר הניסויים הפיזיים הדרושים לאיטרציה של מדיניות.

הַדמָיָהדיגיטלי טוויןנְתוּנִים

לְהַגִיעַ

טווח הגעה הוא המרחק המקסימלי מבסיס זרוע הרובוט לכל נקודה שהגורם הקצה שלו יכול לגשת אליו בתוך סביבת העבודה שלו. עבור זרוע טורית, טווח הגעה מקסימלי שווה לסכום כל אורכי הקישור. טווח הגעה אפקטיבי בפריסה קטן יותר - מה שאחראי על מגבלות משותפות, הימנעות מהתנגשות עצמית והצורך להתקרב לאובייקטים ממספר כיוונים. Reach קובע אילו פריסות תחנת עבודה ומיקום אובייקטים אפשריים. בעת בחירת רובוטים למשימה, על המהנדסים לאשר שמרחב העבודה הנדרש (כולל כל כיווני הגישה לאחיזה) נופל בתוך המעטפת הנגישה של הרובוט בדיוק מקובל.

חוּמרָהמפרטקינמטיקה

מאגר הפעלה חוזר

מאגר שידור חוזר (או זיכרון חוויה חוזרת) הוא מערך נתונים של מעברי עבר (מצב, פעולה, פרס, מצב הבא, בוצע) שנאסף על ידי סוכן RL במהלך אינטראקציה בסביבה. בכל שלב אימון, נדגמות מיני-אצטות אקראיות מהמאגר כדי לאמן את פונקציית הערך או המדיניות, תוך שבירת מתאמים זמניים שיערערו את עדכוני השיפוע. בלמידה לא מקוונת של RL ורובוטים, מאגר ההשמעה החוזר מוחלף במערך נתונים קבוע של הדגמות אנושיות או השקות שנאספו בעבר. ניסיון עם עדיפות לשחק מחדש דגימת משקלים לפי שגיאת הבדל זמני כדי למקד את האימון במעברים אינפורמטיביים.

למידת חיזוקנְתוּנִים

פונקציית תגמול

פונקציית התגמול מגדירה את מטרת הלמידה עבור סוכן למידת חיזוק: היא מקצה אות תגמול סקלארי r(s, a, s') לכל מעבר (מצב, פעולה, מצב הבא), ואומרת לסוכן כמה טובות או רעות הפעולות שלו. עיצוב פונקציית התגמול הוא אחד החלקים הקשים ביותר ביישום RL לרובוטיקה: תגמולים דל (1 על הצלחה, 0 אחרת) הם נקיים אך מובילים ללמידה איטית; תגמולים צפופים (למשל, מרחק שלילי למטרה) מנחים את הלמידה אך ניתן לשחק בדרכים בלתי צפויות (פריצת תגמולים). האלטרנטיבות כוללות לימוד תגמול מהדגמות (IRL, RLHF), מדדי סימולציה ספציפיים למשימה ומודלים של העדפות שנלמדו. למידת חיקוי עוקפת את בעיית עיצוב התגמול לחלוטין על ידי למידה ישירות מהדגמות.

למידת חיזוקקונספט ליבה

S

העברה מ-Sim-to-Real

העברה מ-Sim-to-real היא תהליך של אימון של מדיניות רובוט באופן מלא או בעיקר בסימולציה ולאחר מכן פריסתה על רובוט פיזי, במטרה שהמדיניות תעבוד ללא (או עם מינימום) נתונים נוספים מהעולם האמיתי. האתגר המרכזי הוא ה פער המציאות - הבדלים בנאמנות הפיזיקלית, במראה החזותי, ברעש החיישנים ובדינמיקה ללא מודל בין סימולציה לעולם האמיתי. טכניקות הפחתה עיקריות כוללות אקראי תחום (הזנת פרמטרי סימולציה אקראית במהלך האימון), זיהוי מערכת (כיול סימולציה להתאמה לחומרה אמיתית), וכיוונון עדין אדפטיבי על כמויות קטנות של נתונים אמיתיים. ראה את מאמר מפורט.

העבר למידההַדמָיָהפְּרִיסָה

מרחב המדינה

מרחב המצב הוא הסט השלם של תצורות שבהן רובוט וסביבתו יכולים להיות. ב-RL, מדינת מרקוב מקודדת את כל המידע הדרוש כדי לחזות תגמולים עתידיים ומעברי מדינה - באופן אידיאלי תיאור שלם של העולם. בפועל, לסוכן יש גישה רק לתצפיות חלקיות (תמונות, זוויות משותפות) שעשויות שלא לתפוס את המצב במלואו (למשל, עצמים חסומים, פרמטרים פיזיים לא ידועים). תכנון מרחב תצפית שמקרוב את מצב מרקוב היטב תוך שמירה חישובית הוא אתגר מרכזי בתכנון מערכות למידת רובוטים.

למידת חיזוקלִשְׁלוֹט

רובוטיקה כירורגית

רובוטיקה כירורגית מיישמת מערכות רובוט להליכים רפואיים, המפורסמת ביותר באמצעות פלטפורמת דה וינצ'י של Intuitive Surgical לניתוחים לפרוסקופיים זעיר פולשניים. רובוטים כירורגיים מספקים קנה מידה של תנועה (תרגום תנועות מפעיל גדולות לתנועת מכשירים תת-מילימטרים), סינון רעידות והדמיה משופרת בתוך המטופל. מחקר חדש בוחן תת-משימות כירורגיות אוטונומיות (תפירה, נסיגת רקמות), הדרכה בסיוע בינה מלאכותית וניתוח טלפוני על קישורי 5G עם אחזור נמוך. אישור רגולטורי (FDA 510(k) או PMA עבור ארה"ב) מוסיף נטל אימות משמעותי. רובוטיקה כירורגית יושבת בצומת של טלאופציה, HRI, ו מניפולציה עשירה במגע.

רְפוּאִיטלאופרציהבַּקָשָׁה

T

למידה מותאמת למשימה

למידה עם פרמטרי משימה מקודדת הדגמות ביחס למספר מסגרות קואורדינטות או פרמטרים של משימה (למשל, תנוחת האובייקט, מיקום יעד, מסגרת מכשול) ולא במסגרת עולם קבועה. בעת ביצוע, המדיניות מתאימה אוטומטית לתצורות אובייקט ויעד חדשות ללא אימון מחדש, מכיוון שהיא למדה תנועה ביחס להפניות הרלוונטיות למשימה. מודלים של תערובת גאוסית (TP-GMM) עם פרמטרי תנועה ופרימיטיביים של תנועה עם גרעין הם יישומים קלאסיים. גישה זו מספקת הכללה גיאומטרית חזקה למשימות בחירה-ומקום מובנות, אם כי היא מחייבת זיהוי ומעקב אחר מסגרות משימות בזמן ריצה.

לימוד חיקויהַכלָלָהמְדִינִיוּת

טלאופרציה

Teleoperation הוא שלט רחוק של רובוט על ידי מפעיל אנושי, המשמש הן לביצוע משימות ישיר (רובוטים כירורגים, רובוטיקה בחלל, סילוק פצצות) והן כשיטה העיקרית לאיסוף הדגמות למידה חיקוי באיכות גבוהה. בלימוד רובוטים, הגדרה נפוצה משתמשת בארכיטקטורת מנהיג-עוקב: המפעיל מזיז זרוע מנהיגה קלה והרובוט (העוקב) עוקב אחר המנהיג בזמן אמת. מערכות טל-פעולה מבוססות VR (המשתמשות במעקב ידיים או בקרים) פופולריות יותר ויותר מכיוון שהן ארגונומיות יותר ומאפשרות תפוקת נתונים גבוהה יותר. SVRC מספקת טלאופרציה מקצועית שירותי איסוף נתונים עבור צוותי למידה של רובוטים ארגוניים.

איסוף נתוניםלימוד חיקויחוּמרָה

מַסלוּל

מסלול הוא רצף המוגדר בזמן של מצבי רובוט (זוויות מפרקים או תנוחות קרטזיות) המתאר כיצד הרובוט עובר מתצורת התחלה למטרה. מסלולים יכולים להיווצר על ידי מתכנני תנועה (תכנון נתיב ללא התנגשות ואז פרמטרי זמן שלו לביצוע חלק), על ידי הקלטת טל-פעולה (לכידת תנועת המפעיל בתדר קבוע), או חיזוי ישירות על ידי מדיניות עצבית. חלקות המסלול והמשכיות המהירות חשובים לבטיחות הרובוט הפיזי - אי רציפות פתאומית גורמת ללחץ מכני ויכולות לעורר עצירות בטיחות. ייצוגי מסלול כוללים ספליין, פרימיטיבים של תנועה דינמית (DMPs) ורצפי נקודות ציון נפרדים.

תִכנוּןלִשְׁלוֹטנְתוּנִים

העבר למידה

למידת העברה ברובוטיקה כוללת נטילת מודל שהוכשר מראש בתחום אחד (למשל, נתוני שפת ראייה באינטרנט, סימולציה או רובוט אחר) והתאמתו למשימת יעד או לרובוט עם נתונים נוספים מוגבלים. כוונון עדין של השכבות האחרונות של עמוד שדרה מאומן מראש על נתוני הדגמה של רובוט היא הגישה הנפוצה ביותר; כוונון מלא של כל המשקולות משמש כאשר מספיק נתוני רובוט זמינים. למידת העברה היא המנגנון שעושה דגמי יסוד מעשי לרובוטיקה - החלופה של אימון מאפס על נתוני רובוט בלבד תדרוש מיליוני הדגמות. ראה גם אימון מקדים, העברה של sim-to-real.

מודל קרןהַדְרָכָה

U

URDF (פורמט תיאור רובוט מאוחד)

URDF הוא פורמט קובץ מבוסס XML המתאר את המאפיינים הקינמטיים והדינמיים של הרובוט: קישורים (גופים קשיחים עם מסה, אינרציה ורשתות חזותיות/התנגשות) ומפרקים (החיבורים בין קישורים, עם סוג, ציר, גבולות ופרמטרים של שיכוך). URDF הוא פורמט תיאור הרובוט הסטנדרטי ב-ROS והוא נתמך על ידי כל פלטפורמות הסימולציה העיקריות (Isaac Sim, MuJoCo, Gazebo, PyBullet). זה מאפשר לטעון את הקינמטיקה של הרובוט לתוך מתכנני תנועה כמו MoveIt, הדמיית הרובוט ב-RViz ויצירת מודלים של הדמיית פיזיקה. XACRO (שפת מאקרו XML) משמשת בדרך כלל לפרמטרים ומודולריזציה של קבצי URDF עבור רובוטים מורכבים. ל-OpenArm ולרוב החומרה של SVRC יש דגמי URDF זמינים לציבור.

כְּלִיתֶקֶןהַדמָיָה

V

VLA (מודל חזון-שפה-פעולה)

מודל חזון-שפה-פעולה הוא רשת עצבית המעבדת במשותף תצפיות חזותיות (תמונות RGB), הוראות שפה טבעית ופרופריוספציה של רובוט כדי לייצר פלטי פעולה. VLAs מרחיבים מודלים גדולים של שפת ראייה (VLMs כגון PaLM-E, LLaVA או Gemini) על ידי הוספת ראש פעולה - אימון המודל לפלט מיקומי מפרקי רובוט או דלתות קצה לצד תחזיות השפה שלו. VLAs בולטים כוללים RT-2 (מסמל פעולות כאסימוני טקסט ומכוונן עדין של VLM), OpenVLA (קוד פתוח, פרמטר 7B, מאומן ב-Open X-Embodiment), ו-pi0 (VLA התאמת זרימה של בינה פיזית). ראה את מאמרי VLA ו-VLM ואת קטלוג דגמי SVRC.

מודל קרןשָׂפָהקונספט ליבה

ViperX

ViperX היא סדרה של זרועות רובוט 6-DOF המיוצרות על ידי Trossen Robotics, בשימוש נרחב בחקר לימוד רובוטים אקדמי בשל העלות הנמוכה, תמיכת ROS ותאימותם למערכת האקולוגית של DYNAMIXEL. ה-ViperX 300 (עם טווח הגעה של 300 מ"מ) ו-ViperX 300-S הן בין זרועות המחקר הנפוצות ביותר שנמצאות במערכות למידה חיקוי והן הזרועות העוקבות במקור. ALOHA מַעֲרֶכֶת. לזרועות ViperX יש מטען צנוע (~750 גרם) ודיוק בהשוואה לרובוטים תעשייתיים אך מציעות נקודת כניסה נגישה למחקר מניפולציות. עיין ב-SVRC חנות לחומרי בניין לזמינות.

חוּמרָהרובוט מחקר

הגשה חזותית

שרת חזותי משתמש במשוב מצלמה בבקר בלולאה סגורה כדי להנחות רובוט לעבר מטרה שהוגדרה במרחב התמונה (Image-Based Visual Servoing, IBVS) או מרחב תלת מימדי המוערך מתמונות (Position-Based Visual Servoing, PBVS). ב-IBVS, הבקר ממזער את השגיאה בין תכונות תמונה שזוהו (נקודות מפתח, תיבות תוחמות אובייקט) והמיקומים הרצויים שלהן במישור התמונה, מבלי לחשב במפורש תנוחות תלת-ממדיות. שירות חזותי הוא אטרקטיבי מכיוון שהוא מפצה ישירות על שגיאות כיול וחוסר יישור מצלמה-רובוט. גרסאות מודרניות של למידה עמוקה מאמנות רשתות עצביות לפלט פקודות מהירות שרת ישירות מתמונות גולמיות, מה שמאפשר יישור חזק לאובייקטים חדשים.

לִשְׁלוֹטתְפִיסָהלולאה סגורה

W

נקודת ציון

נקודת ציון היא תצורת ביניים (זוויות מפרקים או תנוחה קרטזיאנית) שמסלול הרובוט חייב לעבור דרכה בדרך מההתחלה למטרה. נקודות ציון מאפשרות למתכנתים ומתכננים להנחות את דרכו של הרובוט דרך תנוחות ספציפיות - למשל, כדי להימנע ממכשול, להתקרב לאובייקט מכיוון בטוח, או רצף באמצעות הליך הרכבה רב-שלבי. בלימוד רובוטים, מדיניות ברמה גבוהה מפלטת לפעמים נקודות ציון שמתכנן תנועה ברמה נמוכה יותר משלב למסלולים משותפים חלקים, תוך שילוב של יתרונות ההכללה של מדיניות נלמדת עם ערובות הבטיחות של תכנון קלאסי.

תִכנוּןמַסלוּל

שליטה על כל הגוף (WBC)

שליטה על כל הגוף מתאמת את כל המפרקים של רובוט בעל רגליים או דמוי אדם בו-זמנית כדי לספק יעדים מתחרים מרובים - שמירה על איזון, מעקב אחר יעדי גורם קצה, הימנעות ממגבלות מפרקים וניהול כוחות מגע - נפתרה כבעיית אופטימיזציה מוגבלת בזמן אמת (בדרך כלל QP). WBC חיוני עבור דמויות אנושיות ומניפולטורים עם רגליים מכיוון שהבסיס אינו קבוע: תנועת הזרוע מסיטה את מרכז המסה ויש לפצותה על ידי התאמות של רגליים ופלג גוף עליון. מסגרות WBC כמו דרייק, פינוקיו ו-OCS2 משמשות בדרך כלל במחקר דמוי אדם. פלטפורמת Mobile ALOHA ו-Boston Dynamics Atlas מסתמכים על בקרי כל הגוף לצורך מניפולציה של לוקו. לִרְאוֹת מאמר של WBC.

לִשְׁלוֹטדמוי אדםתְנוּעָה

סביבת עבודה

מרחב העבודה של רובוט הוא קבוצת כל המיקומים (והכיוונים) שאליהם יכול הגורם הקצה להגיע בהינתן המבנה הקינמטי של הרובוט ומגבלות המפרק. ה מרחב עבודה נגיש הוא כל המיקומים שאליהם יכול הגורם הקצה להגיע בכיוון אחד לפחות; את מרחב עבודה מיומן היא תת-הקבוצה הקטנה יותר שניתן להגיע אליה בכל כיוון - האזור השימושי ביותר למשימות מניפולציה הדורשות זוויות גישה שרירותיות. ניתוח סביבת עבודה מודיע על פריסת תאים (כמה רחוקים זה מזה רובוטים וחלקים צריכים להיות), בחירת רובוט (התאמת טווח הגעה לפריסת המשימה) ותכנון תנועה (זיהוי נתיבים נטולי ייחוד על פני סביבת העבודה).

קינמטיקהחוּמרָהתִכנוּן

Z

זר (פורמט נתונים)

Zarr הוא פורמט קוד פתוח לאחסון מערכים N-ממדיים בצורה דחוסה וגושים, המיועד לעומסי עבודה מקוריים בענן ומקבילים. ברובוטיקה, משתמשים ב-Zarr לאחסון מערכי נתונים גדולים להדגמה של רובוטים (תמונות, מצבים משותפים, פעולות) בפורמט שניתן לקרוא ביעילות מאחסון אובייקטים (S3, GCS) מבלי להוריד קבצים שלמים. שׁוֹנֶה HDF5, Zarr תומך בכתיבה במקביל, מה שהופך אותו למתאים לצינורות איסוף נתונים מבוזרים. Zarr v3 תקן את הפורמט והוסיף תמיכה ברסיסים (שילוב של נתחים קטנים רבים לתוך פחות קבצים גדולים), מה שמשפר את יעילות האחסון בענן. פרויקטים כמו LeRobot וכמה מערכי נתונים לרכב אוטונומי אימצו את Zarr לאירוח מערכי נתונים בקנה מידה גדול.

נְתוּנִיםאִחסוּןהַנדָסָה

הכללה של אפס יריות

הכללת זריקת אפס היא היכולת של מדיניות מאומנת לבצע בהצלחה משימות, אובייקטים או סביבות שמעולם לא ראתה במפורש במהלך האימון, ללא כל כוונון עדין או הדגמות נוספות. העברת זריקת אפס אמיתית היא מטרה מרכזית של מודלים של בסיס רובוטים - מדיניות שמכלילה צילום אפס לחפצים ביתיים חדשים או הוראות שפה חדשות תפחית באופן דרמטי את עומס איסוף הנתונים. מודלים נוכחיים של VLA מראים הכללת שפה אפסית מבטיחה (הבנת ניסוחים חדשניים של סוגי משימות ידועים), אך עדיין נאבקים בקטגוריות אובייקט חדשניות באמת או במיומנויות מניפולציה חדשות לחלוטין. שיפור ביצועי צילום אפס הוא המוטיבציה המרכזית לשינוי קנה מידה של מערכי נתונים וגדלי מודלים של רובוטים. ראה גם מאמר ב-Zero-shot Transfer.

הַכלָלָהמודל קרןגבול המחקר

אין מונחים שתואמים לחיפוש שלך

נסה טווח קצר יותר או בדוק את האיות. כל 65 המונחים מופיעים למעלה כאשר החיפוש נמחק.

זקוק לנתוני רובוט לפרויקט הלמידה שלך?

אנו אוספים הדגמות איכותיות ומוכנות ללמידה עבור למידה חיקוי ו-RL - ממניפולציה על שולחן העבודה ועד למשימות דו-ידניות ניידות.