بخشی از پاورپوینت
اسلاید 2 :
Reinforcement learning In Game Theory یادگیری تقویتی در نظریه بازی ها
اسلاید 3 :
مفهوم یادگیری
هدف اصلي از يادگيري يافتن شيو هاي براي عملكرد در حالات مختلف است كه اين شيوه در مقايسه با سايرين، با در نظر گرفتن معيارهايي، بهتر است.
معمولاً اين شيوه ي عملكرد، از نظر رياضي، به صورت نگاشتي از فضاي حالات به فضاي اعمال، قابل بيان است.
هنگامي مي توان گفت يادگيري اتفاق افتاده است كه، عامل يادگيرنده براساس تجربياتي كه كسب مي كند به نحوي ديگر، و به احتمال زياد بهتر عمل كند.
اسلاید 4 :
یادگیری تقویتی
در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد می گیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید.
یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم.
فقط ورودی و پاداش دارد. بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت می کند و به مرحله بعدی می رود.
اسلاید 5 :
یادگیری تقویتی
عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل کدام است، را ندارد. بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالتها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد.
الهام گرفته از قاعده کلی یادگیری انسان و حیوان است.
عمل یادگیری عبارت است ازیاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال منجر به دریافت حداکثر پاداش از محیط گردد.
اسلاید 6 :
عناصر پایه ای
حالت : مجموعه اي از متغيرهاي بيان کننده حالت محيط.
عمل: انتخاب شده از مجموعه عملهاي ممكن پس از حس محيط.
سياست: قانون انتخاب عمل با توجه به حالت (s,a).
سيگنال تقويت : يك سيگنال اسکالر بيان کننده ارزش اقدام عامل.
تابع ارزش: اميد حاصلجمع کاهش يافته سيگنال هاي تقويت دريافت شده در طول زمان:
محيط
اسلاید 7 :
ساختار کلی
در یک مسئله RL استاندارد با اجزای اصلی زیر روبرو هستیم:
عامل
محیط
عامل میتواند از طریق ورودی هایش تشخیص دهد که در چه حالتی قرار دارد. عامل در حالت St عمل at را انجام می دهد. اینکار باعث می شود حالت محیط به St+1 تغییر نماید. در اثر این تغییر حالت عامل سیگنال تقویتی و یا پاداش rt+1 را از محیط دریافت می نماید.
اسلاید 8 :
هدف
هدف: جمع کردن حداکثر پاداش ممکن.
هیچگونه اطلاعات مربوط به گرادیان خطا موجود نیست.
حالت بعدی از روی عمل فعلی تعیین می شود.
یادگیری مبتنی بر سعی و خطاست.
اسلاید 9 :
مشخصه های اصلی
به یادگیر گفته نمی شود که چه عملی را باید انجام دهد.
جستجو بر اساس سعی و خطا انجام می شود. یادگیر سعی می کند اعمالی را یاد بگیرد که بیشترین پاداش را تولید می کنند.
پاداش از نوع تاخیری است: از اینرو دست آوردهای کوتاه مدت فدای مزایای بلند مدت تر می شوند.
باید بین جستجو موارد جدید و استفاده از دانش قبلی تناسب ایجاد نمود.
اسلاید 10 :
محیط
در RLعامل یادگیر بطور سعی و خطا با یک محیط پویا درگیر شده و یاد می گیرد که برای هر موقعیت چه عملی را انجام دهد.
این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل مشاهده برای عامل باشد.
مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور، توضیح سمبلیک و غیره باشد.
در حالت ایده ال عامل بطور کامل قادر به مشاهده محیط می باشد زیرا اغلب تئوریهای مربوطه بر اساس این فرض بنا شده اند.
اسلاید 11 :
محیط
در حالت کلی محیط میتواند غیر قطعی باشد. یعنی انجام یک عمل مشابه در یک وضعیت یکسان به وضعیت بعدی یکسان و یا مقدار پاداش یکسانی منجر نشود.
در این محیط احتمال تغییر وضعیت و یا دریافت پاداش در طول زمان یکسان فرض می شود.
اسلاید 12 :
رفتار عامل
عامل در محیط حرکت کرده و حالت ها و پاداش های مربوطه را به خاطر می سپارد.
عامل سعی می کند طوری رفتار کند که تابع پاداش را ماکزیمم نماید.
تابع پاداش باید مناسب با اهداف عامل باشد که اینکار باروش های مختلفی انجام می شود.
اسلاید 13 :
سیاست(policy)
چيزي كه نحوه ي انتخاب اعمال در حالات مختلف را براي عامل تصميم گيرنده معين مي كند، سياست ناميده مي شود.
سياست اصلي ترين مجهول مسائل يادگيري تقويتي و هر مسأله ي يادگيري ديگر است.
از نظر رياضي مي توان يك سياست را به صورت يك نگاشت در نظر گرفت.
اسلاید 14 :
سیاست(policy)
اگر چه هدف نهائی یادگیری تقویتی یادگیری تابعی بصورت p*:SA است با این وجود در عمل انجام آن بسیار مشکل است زیرا مثالها بصورت عرضه نمی شوند.
برای یادگیری سیاست از دو تکنیک زیر استفاده خواهیم کرد:
Value Function
Q Value
در یادگیری تقویتی بجای یافتن سیاست بهینه که مدل کردن آن می تواند مشکل باشد، می توان تلاش نمود تا مقدار تابع بهینه حالتها را بدست آورد.
اسلاید 15 :
کاربرد های RL
بازي ها
شطرنج
تخته- نرد
حل مسائل اقتصادي
بازارهاي رقابتي (مثلا بازار برق)
مدل سازي و تصميم گيري بهينه در بازار بورس
تشخيص الگو
آموزش شبكه هاي عصبي
كنترل هوشمند
اسلاید 16 :
روش های RL
برنامه ريزي پويا (Dynamic Programming): روش هاي مبتني بر مدل، دقيق اما پر هزينه (از نظر محاسباتي).
روش هاي مونت كارلو (Monte Carlo Methods) : روش هاي مبتني بر تجربه، نا دقيق اما سريع.
يادگيري تفاضلي (Temporal Difference Learning): تركيبي موثر از دو روش قبلي را ارائه مي دهند. به عنوان مثال Q-Learning، TD(0)، TD(λ) و SARSA.
اسلاید 17 :
خاصیت مارکوف
حالت St تمامی اطلاعات لازم را در اختیار عامل قرار می دهد. یعنی عامل به اطلاعات دیگری نیاز ندارد.
بعبارت دیگر قرار گرفتن در یک حالت به معنای داشتن خلاصه گذشته عامل است و نیازی نیست تا از گذشته آن چیز دیگری بدانیم.
نمایش یک حالت می تواند شامل ورودیهای فوری، ورودیهای پردازش شده و یا ساختارهای داده ای باشد که در طول زمان از روی ورودی های حس شده تشکیل شده باشند.
اسلاید 18 :
فرایند تصمیم گیری مارکوف
اسلاید 19 :
فرایند تصمیم گیری مارکوف
در مسائل MDP با شرایطی مواجه هستیم که عامل می تواند S حالت مجزا را در محیط تشخیص دهد. این عامل قادر به انجام A عمل مجزا می باشد.
در هر لحظه t عامل حالت st را تشخیص داده و عمل at را انجام می دهد.
محیط در پاسخ به این عمل پاداش Rt=(st,at) را به عامل می دهد و به حالت بعدی st+1= R(st,at) می رود.
توابع R , Pجزئی از محیط بوده و برای عامل ناشناخته هستند.
در MDP توابع فقط به حالت و عمل فعلی بستگی داشته و از حالت وعمل های قبلی مستقل است.
اسلاید 20 :
Q-learning
یادگیری Q-learning نوعی از یادگیری تقویتی بدون مدل است که بر پایه برنامه ریزی پویای اتفاقی عمل می کند.
در یادگیری Q –Learning بجای انجام یک نگاشت از States به مقادیر حالتها، نگاشتی از زوج state/action به مقادیری که Q-value نامیده می شوند انجام می گردد.
Q-Function
به هرزوج > حالت ، عمل< یک مقدار Q(s,a) نسبت داده می شود. این مقدار عبارت است از مجموع پاداشهای دریافت شده وقتی که از حالت s شروع و عمل a را انجام وبدنبال آن سیاست موجود را دنبال کرده باشیم.