← المسرد

التعلم بالتقليد

التعلم من العروض التوضيحية - الروبوتات التي تحاكي السلوك البشري من بيانات التشغيل عن بعد.

ما هو التعلم بالتقليد؟

التعلم بالتقليد (IL) هو نموذج يتعلم فيه الروبوت أداء المهام من خلال مراقبة عروض الخبراء وتكرارها. بدلاً من التعلم من إشارات المكافأة (كما هو الحال في التعلم المعزز)، يتعلم الروبوت من أزواج أفعال الحالة التي تم جمعها أثناء التشغيل عن بعد البشري أو التدريس الحركي.

النهج الرئيسية

  • استنساخ السلوك (قبل الميلاد) - التعلم تحت الإشراف من أزواج (الملاحظة، العمل). بسيطة ولكنها عرضة لتحول التوزيع.
  • خنجر - جمع البيانات التكرارية: تشغيل السياسة، والحصول على تصحيحات الخبراء، وإعادة التدريب. يقلل من التحول التوزيع.
  • التعلم المعزز العكسي (IRL) - استنتاج وظيفة المكافأة من العروض التوضيحية، ثم تحسين السياسة.

الموارد ذات الصلة