بخشی از پاورپوینت
اسلاید 1 :
Reinforcement Distribution in Fuzzy Q-Learning
اسلاید 2 :
یادگیری تقویتی
يادگيري بهوسيله تعامل با محیط بهمنظور رسيدن به هدفي مشخص
مدل پایه یادگیری تقویتی
مجموعه ای از حالات محیط S
مجموعه ای از اعمالA
مجموعه پاداش R
تابع پاداش R: R : S × A →R
تابع انتقال حالت P: P : S × A × S →[0,1]
اسلاید 3 :
هدف : پیدا کردن سیاستی که حالت ها را به اعمالی که عامل میتواند در هر حالت انجام بدهد، نگاشت می کند.
معیار ارزیابی
اسلاید 4 :
Value Function
اسلاید 5 :
Q Function
در یادگیری Q بهجای انجام یک نگاشت از States به مقادیر حالتها، نگاشتی از زوج state/action به مقادیری که Q-value نامیده می شوند انجام می گردد.
Q-Function :به هرزوج > حالت ، عمل< یک مقدار Q(s,a) نسبت داده می شود. این مقدار عبارت است از مجموع پاداشهای دریافت شده وقتی که از حالت S شروع و عمل a را انجام وبه دنبال آن خط مشی موجود را دنبال کرده باشیم.
Model-Free
اسلاید 6 :
Q Function
اسلاید 7 :
Value Function VS Q Function
اسلاید 8 :
کاوش- استخراج
اسلاید 9 :
تقریب تابعQ
اسلاید 10 :
سیستم استنتاج فازی
اسلاید 13 :
Fuzzy Q-Learning
اسلاید 14 :
Q-Value
اسلاید 15 :
Q-Update