بخشی از مقاله
چکیده
در این مقاله از کنترل کننده فازي1 استفاده کرده ایم تا شکل دهی پاداش2 را بهبود ببخشیم. شکل دهی پاداش یکی از روش هایی که براي سرعت بخشیدن به همگرایی و استفاده از اطلاعات موجود از آن استفاده می شود. یکی از مشکلات این روش به کار گیري درست این اطلاعات براي بدست آوردن خروجی صحیح است. از آنجا که ویژگی فازي به کار گیري درست دانش انسانی است پس راه حل مناسب استفاده از فازي است است. این روش بر روي یک محیط ماز3 اعمال شده است. نتایج حاکی از شکل دهی درست پاداش و افزایش سرعت همگرایی است.
-1 مقدمه
یکی از سؤالاتی که یادگیري تقویتی - RL - 5 با آن رو به است این است که چگونه می توان پیچیدگی هاي موجود براي یادگیري را کاهش داد. به همین دلیل این فکر ایجاد شد که طراح در پاداش فیدبکی از محیط بگنجاند تا عامل بتواند به همگرایی خود سرعت ببخشد.[4][3] یکی از راه هایی که به وسیله آن می توان اطلاعات قبلی را در یادگیري منعکس کرد شکل دهی پاداش - - RS است که در 2008 در [5] از آن استفاده شد. همچنین در 2009 گرز و کودنکو توانستند در RS [6] را از جنبه هاي مختلف مورد تحلیل و ارزیابی قرار دهند.
از طرفی مطالعات اخیر حاکی از افزایش میزان علاقه به سیستم هاي چند کارگزاره - - MAS است. یکی از دلایل این علاقه مندي این است که با استفاده از MAS مسائل با پهنه ي گسترده تري را می توان تحت پوشش قرار داد.[2] اما یکی از مشکلاتی که MAS با آن روبه رو است افزایش میزان پیچیدگی با افزایش میزان عامل ها است که تصمیم گیري را سخت می کند. بابز و کوت در [7] توانستند از کاربرد هاي RS در حوزه ي MAS بهره ببرند.
بعد آن ها دولین و کودنکو نیز در [8] ثابت کردند که استفاده از RS در MAS معادل است با مقدار دهی جدول Q با داشتن دانش اولیه. اما یکی از مشکلاتی که در RS مطرح می شد تعریف درست این تابع است. اینکه حال با داشتن دانش اولیه چگونه این تابع را تعریف کرد که مقادیر باعث واگرایی نشود. براي این مشکل روش هایی نیز ذکر شده است در [8] دولین و کودنکو توانستند تابع RS را به صورت اتوماتیک تعریف کنند. در [9] نیز مرعشی و خلیلیان توانستند با تحلیل گراف مسئله این تابع را تعریف کنند. اما در هیچ کدام از این روش ها راه کاري براي استفاده از دانش ادراکی از مسئله ارائه نشده است. یکی از راه حل هایی که در اینجا مفید واقع می شود استفاده از کنترل کننده فازي است. با استفاده از فازي می توانیم به راحتی دانش ادراکی که از محیط داریم را توسط قوانین6 به تابع RS منتقل کنیم.
این روش را ما بر روي محیط ماز که محیط مناسبی براي ارزیابی MAS است به کار برده ایم. در این مسائله با توجه به دانش انسانی که از محیط داریم قوانین فازي را ترتیب داده ایم و با استفاده از آن تابع RSرا به دست آورده ایم. نتیجه این روش شکل گیري درست تابع پاداش و در نتیجه آن همگرایی بهتر مسئله است. از مزیت هاي این روش می توان به سادگی تعریف تابع RS اشاره کرد. ساختار این مقاله به شرح زیر است: در بخش 2 به معرفی روش شکل دهی پاداش پرداخته ایم. بخش 3 نیز به بحث به کارگیري RS در سیستم هاي چند عامله می پردازد. بخش 4 روش ارائه شده در این مقاله که تلفیقی از فازي و شکل دهی پاداش - - Fuzzy- RS است را توضیح می دهیم. در بخش 5 مطالعات آزمایشگاهی آورده شده است. در آخر نتایج نیز در بخش 7 آورده شده است.
-2 شکل دهی پاداش
ایده ي اصلی شکل دهی پاداش از اینجا گرفته شد که این نیاز احساس می شد که نیاز به روشی داریم تا بتوانیم اطلاعات محیط را در تابع پاداش منعکس کنیم. همچنین γ همان فاکتور کاهشی7 است که این فاکتور با توجه به شرایط تعیین شده براي تابع پاداش تعیین می شود. به عنوان مثال حالتی را فرض کنید تابع پاداش را براي مسئله ي ماز8 شکل داده ایم حال می توان تابع پاداش 9 را به صورت هاي مختلفی تعریف کرد. به عنوان مثال می توان تابع پاداش را به صورت تنک یا متراکم تعریف کرد. تنک مثلا براي حالتی می شود که پاداش ها به ازاي 1 یا چند حالت مثلا برد یا باخت غیر صفر و براي حالت هاي دیگر صفر است. خوب براي این حالت آنچه به ذهن می رسد این است که باید فاکتور کاهشی را کوچکتر از 1 تعریف کنیم تا بتوانیم نتیجه بگیریم.[6]
-3 شکل دهی پاداش در سیستم هاي چند عامله
رفته رفته با پیشرفته شدن علم مسائل قابل حل نیز پیچیده تر می شود. این پیچیدگی نیاز به روش هایی دارد که به صورت راحت تري بتوان به حل مسائل پرداخت. یکی از راه حل ها استفاده از هوش توزیع شده10 بود. از همین رو رفته رفته بحث سیستم هاي چند عامله مورد علاقه ي بیشتري واقع شد. این بحث در حوزه ي یادگیري محیط نیز به کار گرفته شد و از آنجایی که جستجو با سرعت بیشتري انجام می شود مفید واقع شد.
در کار هاي گذشته مانند [12]و [13] نشان داده شد که استفاده از دانش اولیه در یادگیري سیستم هاي چند عامله مفید است. در [8] نیز دولین و کودنکو با به کارگیري RS در MAS به نتایج جالبی دست یافتند. در این پژوهش آنها توانستند ثابت کنند که در سیستم هاي چند عامله نیز شکل دهی پاداش مبتنی بر پتانسیل معادل است با مقدار دهی جدول Q با استفاده از دانش اولیه. همچنین ثابت شد که شکل دهی پاداش در [8] می تواند کاوش11 را تحت تاثیر قرار دهد.
-4 شکل دهی پاداش با استفاده از کنترل کننده فازي
در روش RS ما از اطلاعات موجود استفاده می کنیم براي جهت دادن به پاداش. اما سوالی که اینجا مطرح می شود این است که چگونه این اطلاعات را منتقل کنیم. از طرفی اکثر اطلاعاتی که ما داریم اطلاعات کلی و زبانی است لذا استفاده از کنترل کننده فازي مفید خواهد بود. در شکل - 1 - بلوك دیاگرام این روش نشان داده شده است. در شکل - 1 - بلوك Fuzzy-RS چهار ورودي می گیرد که Stو St+1 حالت هاي 12 عامل در لحظه t و t+1 است. Vt بیانگر ورودي اصلی کنترل کننده فازي است که همان شرایط محیط است که قوانین مد نظر در آن در کنترل کننده فازي وجود دارد. ورودي دیگر نیز r است که بعد از محاسبه خروجی نهایی تابع RS با آن جمع می شود و در نهایت خروجی FRSt را به عامل اعمال می کند.
-5 مطالعات آزمایشگاهی
الگوریتم ارائه شده بر روي مسئله ي ماز مورد مطالعه قرار گرفته است. مسئله ماز از آن جهت انتخاب شده زیرا قابلیت تعمیم به مسئله هاي دیگر را نیز دارد.این محیط در شکل - - 2 به نمایش در آمده است. ابعاد این محیط 18×12 در نظر گرفته شده است. تعداد عامل ها برابر 4 در نظر گرفته شده است. انتخاب تعداد عامل ها با توجه به ابعاد ماز انتخاب شده است تا هم فضا را مورد پوشش قرار دهند و هم تعداد عامل ها بیش از حد نیاز براي پوشش دادن محیط نباشد. انتخاب ساختار ماز به دنبال اهداف خاصی است که ما دنبال می کنیم. هدف این است که این ماز محیط ساده ي کوچکی را فراهم کند براي شبیه سازي یک جاده و عامل ها هم همان وسایل نقلیه خواهند بود.