← मॉडल

प्रसार नीति

सशर्त निरूपण प्रसार के माध्यम से विसुओमोटर नीति सीखना। कोलंबिया विश्वविद्यालय.

सिंहावलोकन

प्रसार नीति एक सशर्त निरूपण प्रसार प्रक्रिया के रूप में रोबोट व्यवहार का प्रतिनिधित्व करती है। यह मल्टीमॉडल एक्शन डिस्ट्रीब्यूशन, हाई-डायमेंशनल एक्शन स्पेस को संभालता है और मजबूत प्रशिक्षण स्थिरता प्रदर्शित करता है। 15 हेरफेर कार्यों में पिछले तरीकों की तुलना में औसत +46.9% सुधार।

वास्तुकला

  • घटता क्षितिज नियंत्रण
  • दृश्य कंडीशनिंग
  • समय-श्रृंखला प्रसार ट्रांसफार्मर
  • आईजेआरआर 2024

आधिकारिक लिंक

उद्धरण

IJRR 2024. BibTeX के लिए प्रोजेक्ट साइट देखें।