بخشی از پاورپوینت

اسلاید 1 :

Reinforcement Distribution in Fuzzy Q-Learning

اسلاید 2 :

یادگیری تقویتی
يادگيري بهوسيله تعامل با محیط بهمنظور رسيدن به هدفي مشخص
مدل پایه یادگیری تقویتی
مجموعه ای از حالات محیط S
مجموعه ای از اعمالA
مجموعه پاداش R
تابع پاداش R: R : S × A →R
تابع انتقال حالت P: P : S × A × S →[0,1]

اسلاید 3 :

هدف : پیدا کردن سیاستی که حالت ها را به اعمالی که عامل میتواند در هر حالت انجام بدهد، نگاشت می کند.

معیار ارزیابی

اسلاید 4 :

Value Function

اسلاید 5 :

Q Function

در یادگیری Q بهجای انجام یک نگاشت از States به مقادیر حالتها، نگاشتی از زوج state/action به مقادیری که Q-value نامیده می شوند انجام می گردد.

Q-Function :به هرزوج > حالت ، عمل< یک مقدار Q(s,a) نسبت داده می شود. این مقدار عبارت است از مجموع پاداشهای دریافت شده وقتی که از حالت S شروع و عمل a را انجام وبه دنبال آن خط مشی موجود را دنبال کرده باشیم.

Model-Free

اسلاید 6 :

Q Function

اسلاید 7 :

Value Function VS Q Function

اسلاید 8 :

کاوش- استخراج

اسلاید 9 :

تقریب تابعQ

اسلاید 10 :

سیستم استنتاج فازی

اسلاید 13 :

Fuzzy Q-Learning

اسلاید 14 :

Q-Value

اسلاید 15 :

Q-Update

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید