אדם בלולאה כאות למידה ממדרגה ראשונה
מדוע תיקונים, שחזורים והתערבויות של המפעיל צריכים לעצב את אופן עיצוב צינורות הנתונים הרובוטים המודרניים.
היכן שהקלט האנושי הופך לפיקוח
מערכות רבות של לימוד רובוטים עדיין מתייחסות לאנשים כאל פיגומים זמניים: שימושי לאיסוף הדגמות בהתחלה, ולאחר מכן מתעלמים מהם בעיקר ברגע שמדיניות נמצאת בהדרכה. בפועל, זו הפשטה שגויה. התנהגות אנושית היא לא רק כלי אתחול. לעתים קרובות זהו אחד האותות העשירים ביותר הזמינים להבנת כוונת המשימה, גבולות הכשל ואסטרטגיית ההתאוששות.
איפה האות חי
הערך אינו מוגבל להפגנות מוצלחות. הוא מופיע בהפסקות, תיקוני אמצע מסלול, התאמות אחיזה, התנהגות ניסיון חוזר, והרגעים שבהם מפעיל מבחין שמשימה עומדת להיכשל ומשנה אסטרטגיה לפני שהרובוט מתחייב לפעולה הלא נכונה.
למה זה חשוב לעיצוב נתונים
אם צוותים שומרים רק את המסלול המוצלח הסופי, הם זורקים כמות גדולה של מבנה שמסביר כיצד הושגה הצלחה. הרגעים החסרים הללו הם לעתים קרובות בדיוק מה שעוזר למדיניות להפוך לחזקה יותר: כיצד להתאושש מסחיפה, כיצד להאט לפני מגע, כיצד להתקרב מחדש לאחר החמצה חלקית, וכיצד להגיב כאשר הערכות המדינה שגויות מעט.
מה ללכוד
- התערבויות - כאשר אדם עוקף או דוחף את המשימה חזרה למסלול.
- תיקונים - שינויים קטנים בתנוחה, בכוח או ברצף המשקפים שיקול דעת של מומחים.
- מנסה שוב - ניסיונות כושלים או חלקיים החושפים את הקושי האמיתי של המשימה.
- מטא נתונים של משימות - זהות המפעיל, תגי קושי והקשר שמסבירים מדוע הבחירות השתנו.
הטייק אווי המעשי
צוותים הבונים מערכות רובוט אמיתיות צריכים להפסיק להתייחס לקלט אנושי כרעש סביב המסלול האוטונומי "האמיתי". לעתים קרובות זהו הביטוי המובהק ביותר להתנהגות המדיניות שהם בעצם רוצים. מערכי נתונים טובים משמרים את האות הזה במקום לכווץ אותו לשידור חוזר פשוט של הצלחה בלבד.
השיטה הטובה ביותר - יומן תיקונים ושחזורים אנושיים לצד ההפגנה עצמה. לעתים קרובות הם אינפורמטיביים יותר מהנתיב הנומינלי.