← المسرد

التعلم المعزز

التعلم من التجربة والخطأ – الروبوتات التي تعمل على تحسين السلوك من خلال إشارات المكافأة.

ما هو التعلم المعزز؟

التعلم المعزز (RL) هو نموذج حيث يتعلم الوكيل تعظيم المكافأة التراكمية من خلال التفاعل مع البيئة. يتخذ الوكيل الإجراءات ويتلقى المكافآت (أو العقوبات) ويقوم بتحديث سياسته لتحسينها بمرور الوقت.

المفاهيم الأساسية

  • إشارة المكافأة - ردود فعل متفرقة أو كثيفة تشير إلى تقدم المهمة (على سبيل المثال، تم استيعاب الشيء، وتم الوصول إلى الهدف).
  • سياسة - رسم الخرائط من الملاحظات إلى الإجراءات. في كثير من الأحيان الشبكات العصبية (على سبيل المثال، PPO، SAC).
  • محاكاة حقيقية - التدريب على المحاكاة، والنشر على الروبوتات الحقيقية. التوزيع العشوائي للمجال يساعد على سد الفجوة.

الموارد ذات الصلة