الإنسان في الحلقة كإشارة تعليمية من الدرجة الأولى
لماذا يجب أن تشكل تصحيحات المشغل وعمليات الاسترداد والتدخلات كيفية تصميم خطوط أنابيب بيانات الروبوت الحديثة.
حيث تصبح المدخلات البشرية إشرافًا
لا تزال العديد من أنظمة تعلم الروبوتات تعامل الأشخاص باعتبارهم سقالات مؤقتة: فهي مفيدة لجمع العروض التوضيحية في البداية، ثم يتم تجاهلها في الغالب بمجرد أن تكون السياسة قيد التدريب. ومن الناحية العملية، هذا هو التجريد الخاطئ. السلوك البشري ليس مجرد أداة تمهيدية. غالبًا ما تكون واحدة من أغنى الإشارات المتاحة لفهم هدف المهمة وحدود الفشل واستراتيجية الاسترداد.
حيث تعيش الإشارة
لا تقتصر القيمة على المظاهرات الناجحة. ويظهر ذلك في حالات التوقف المؤقت، وتصحيحات منتصف المسار، وتعديلات القبضة، وسلوك إعادة المحاولة، واللحظات التي يلاحظ فيها المشغل أن المهمة على وشك الفشل ويغير الإستراتيجية قبل أن يرتكب الروبوت الإجراء الخاطئ.
لماذا هذا مهم لتصميم البيانات
إذا قامت الفرق بحفظ المسار الناجح النهائي فقط، فإنها تتخلص من قدر كبير من البنية التي تشرح كيفية تحقيق النجاح. تلك اللحظات المفقودة هي في كثير من الأحيان بالضبط ما يساعد السياسة على أن تصبح أكثر قوة: كيفية التعافي من الانجراف، وكيفية التباطؤ قبل الاتصال، وكيفية إعادة الاقتراب بعد فشل جزئي، وكيفية الاستجابة عندما تكون تقديرات الدولة خاطئة قليلا.
ما لالتقاط
- التدخلات - عندما يتجاوز الإنسان المهمة أو يدفعها إلى مسارها الصحيح.
- التصحيحات — تغييرات صغيرة في الوضع أو القوة أو التسلسل الذي يعكس حكم الخبراء.
- إعادة المحاولة — المحاولات الفاشلة أو الجزئية التي تكشف مدى صعوبة المهمة الحقيقية.
- البيانات التعريفية للمهمة — هوية المشغل، وعلامات الصعوبة، والسياق الذي يوضح سبب تغير الاختيارات.
الوجبات الجاهزة العملية
يجب على الفرق التي تعمل على بناء أنظمة روبوتية حقيقية أن تتوقف عن التعامل مع المدخلات البشرية باعتبارها ضجيجًا حول المسار المستقل "الحقيقي". وغالبًا ما يكون هذا أوضح تعبير عن السلوك السياسي الذي يريدونه بالفعل. تحافظ مجموعات البيانات الجيدة على تلك الإشارة بدلاً من طيها في إعادة تشغيل مبسطة للنجاح فقط.
أفضل الممارسات - سجل التصحيحات البشرية وعمليات الاسترداد جنبًا إلى جنب مع العرض التوضيحي نفسه. وهي غالبًا ما تكون أكثر إفادة من المسار الاسمي.