بخشی از پاورپوینت
اسلاید 1 :
یادگیری تقویتی Reinforcement Learning
اسلاید 5 :
فصل اول
اسلاید 6 :
یادگیری تقویتی
در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید.
اسلاید 7 :
یادگیری تقویتی
یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم.
استراتژی اصلی برای اینکار استفاده از روشهای آماری است.
اسلاید 12 :
مقایسه RL با یادگیری با ناظر
یادگیری تقویتی از دو جنبه با یادگیری با ناظر تفاوت دارد:
مثالهای یادگیری بصورت ورودی/ خروجی مطرح نمیشوند. بلکه بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت میکند و به مرحله بعدی میرود. عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل چیست را ندارد. بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالتها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد.
تفاوت دیگر در اینجاست که سیستم باید کارائی آنلاین بالائی داشته باشد. زیرا اغلب ارزیابی سیستم بطور همزمان صورت می پذیرد.
اسلاید 13 :
Supervised Learning:
Example Class
Reinforcement Learning:
Situation Reward
Situation Reward
مقایسه RL با یادگیری با ناظر
اسلاید 14 :
یادگیری با ناظر
Supervised Learning
System
Inputs
Outputs
Training Info = desired (target) outputs
Error = (target output – actual output)
اسلاید 15 :
یادگیری تقویتی
RL
System
Inputs
Outputs (“actions”)
Training Info = evaluations (“rewards” / “penalties”)
هدف: جمع کردن حداکثر پاداش ممکن
هیچگونه اطلاعات مربوط به گرادیان خطا موجود نیست.
حالت بعدی از روی عمل فعلی تعیین میشود.
یادگیری مبتنی بر سعی و خطاست.
اسلاید 16 :
مثال: در یک سوپرمارکت برای کاهش ترافیک چه باید کرد؟حل مسئله بر اساس طراحی چیدمان
سعی و خطای هدایت شده (guided Trial and error)
تنها ترافیک را حل میکند و با دادههای دیگر فروش کاری ندارد.
راهی هوشمندانه:
اطلاعات خرید هر فرد ذخیره شود.
احتمال خرید هر جنس به شرط خرید جنسی دیگر محاسبه شود.
بدست آوردن قاعده و قانون از روی احتمالات
تصمیمگیری از روی قانونها
گاهی برای حل مسدله قاعدهها را استخراج میکنیم و بعد مسئله را حل میکنیم.
گاهی بدون استخراج قواعد به دنبال حل مسئله هستیم.
چیدن تصادفی اجناس
چیدمان ساختاریافته
اسلاید 17 :
اگر پارامترهای دیگری مانند دزدی، سوددهی و ترافیک را بخواهیم بهینه کنیم، پیدا کردن تابع بهینه مشکلتر است.
اسلاید 18 :
مثال: به محض ورود به صفحهی اول وب صفحهی دوم به صورت خودکار دانلود شود.
بر اساس احتمالات شرطی کار کنیم.
اضافه کردن ویژگیها تصمیمگیری بهتر:
اسلاید 19 :
مثال:خریدار ماهی خوب و بد را تشخیص نمیدهد و آشپز بلد نیست اطلاعات مناسب راجع به ماهی خوب و بد را منتقل چگونه خریدار ماهی خوب خریداری کند..کند
دانش ما صریح (explicit) نیست.
فضای دانش یا وجود ندارد یا قابل انتقال نیست.
راه حل: بر اساس برچسب زنی ماهی خوب میخرد.
ویژگیهای مناسبتر و بیشتر امکان تفکیک
مناسبتر دادگان را میدهد.
چون قواعد و دادگان از بیرون داده شده
یادگیری بانظارت در این مسئله وجود دارد.
گوشت سفید
روشنی چشم
بال قرمز
خوب
بسیار بد
اسلاید 20 :
مثال: پیشبینی بانک از بازپرداخت وام؟
با بررسی موارد غیر عادی 3 حالت اتفاق میافتد:
ویژگیها کم بوده است.
وامگیرنده دروغگو بوده.
وکیل رشوه گرفته است.
شغل وامگیرنده
ارزشگذاری وکیل بانک