← المسرد

تعلم السياسات

رسم خرائط الملاحظات إلى الإجراءات – السياسات الحركية للتحكم في الروبوت.

ما هو تعلم السياسات؟

السياسة هي وظيفة تقوم بتعيين الملاحظات (الصور، الحالة) إلى الإجراءات (الأوامر المشتركة، القابض). يقوم تعلم السياسات بتدريب هذا التخطيط من البيانات (التقليد) أو المكافأة (RL). تستخدم السياسات الحركية الرؤية كمدخل أساسي.

البنى الرئيسية

  • ACT (تقطيع الحركة باستخدام المحولات) - يتنبأ بقطع العمل. التنفيذ السلس.
  • سياسة الانتشار - تقليل الانتشار لتوزيعات العمل متعددة الوسائط.
  • استنساخ السلوك — تعلم بسيط تحت الإشراف من العروض التوضيحية.
  • VLA - نماذج الرؤية واللغة والعمل (OpenVLA، RT-2) مع تكييف اللغة.

الموارد ذات الصلة