بخشی از مقاله
چکیده
اتوماتاهای یادگیر در حال حاضر به عنوان ابزاری ارزشمند در طراحی الگوریتمهای یادگیری تقویتی بوده و حتی در سیستمهایی که از وجود چندین اتوماتای یادگیر بهره میبرند نیز ویژگیهای خوبی را ارائه داده اند. اتوماتای یادگیر در مسائل تصمیمگیری غیرمتمرکز قادر به کنترل زنجیرههای مارکوف محدود و حتی بازیهای مارکوفی نیز می باشد. این بازیها توسعهای از فرآیندهای تصادفی مارکوف با چندین عامل بوده و هدف هرعامل پیدا کردن سیاست بهینهای است که امید ریاضی مجموع کاهش یافته پاداشها را بیشینه نماید.
در این مقاله در روش پیشنهادی، در هر حالت از محیط، به ازای هر عامل، یک اتوماتای یادگیر تعمیم یافته استفاده شده است. اعمال انتخابی اتوماتای یادگیرتعمیم یافته - GLA - برپایه پاداش تجمعی به دست آمده یا بردار احتمال اعمال اتوماتای یادگیر حالت جدید، پاداش یا جریمه دریافت می کنند. نتایج آزمایشهای انجام گرفته نشان دادهاند که الگوریتم ارائه شده از کارایی مناسبی در سرعت همگرایی - رسیدن به راه حل بهینه - برخوردار است.
-1 مقدمه
در ادامه سازماندهی این مقاله بصورت زیر است، در بخش2 به تعریف و بررسیMDP و بازیهای مارکوفی پرداخته شده است. در بخش3 مفهوم اتوماتای یادگیر و استفاده از آن در حل بازیهای مارکوفی و ارائه راهحل پیشنهادی ارائه گردیده است. در بخش4 مثالی از بازیهای هماهنگی مارکوفی و چهار حالت به عنوان بستر حل مساله ارائه شده و در بخش 5 آزمایشها و نتایج دیده میشود.
-2 بازیهای مارکوفی
-1-2 تعریف فرآیند تصادفی مارکوف
مساله کنترل کردن یک زنجیره مارکوفی محدود به نام مساله تصمیمگیری مارکوفی خوانده میشود که در آن احتمالات گذار حالت و پاداشها ناشناختهاند و به صورت زیر تعریف میشود. تعریف.1 فرآیند تصادفی مارکوف بصورت چندتایی S,A,R,T نشان داده میشود که در آن S مجموعه متناهی از وضعیتها، A مجموعه عملیات قابل دسترس برای عامل و T : S×A×S [0, 1] احتمال انتقال از وضعیت جاری به وضعیت بعدی با انجام عمل a است و R: S×A تابع پاداش است که یک مقدار عددی را بر میگرداند.
-3 اتوماتای یادگیر
اتوماتاهای یادگیر یکی از مدلهای یادگیری تقویتی است که در آن یک اتوماتا یک عمل بهینه را با توجه به اعمال گذشته و بازخورد محیط فرا میگیرد . هدف نهایی این است که اتوماتا یاد بگیرد تا از بین اعمال خود، بهترین عمل را انتخاب کند. بهترین عمل، عملی است که احتمال دریافت پاداش از محیط را به حداکثر برساند. کارکرد اتوماتای یادگیر در تعامل با محیط، در شکل1 مشاهده میشود.
-2-3 اتوماتای یادگیر تعمیم یافته - - GLA
برای حل مساله یادگیری تقویتی انجمنی به یکLA با تعریف متفاوت نیاز است. در مسائل یادگیری تقویتی انجمنی هدف حل یک مساله تشخیص الگو برای انتخاب بهترین اعمال میباشد. در این مسائل درهرمرحله کاری LA ، یک بردار از مقادیر ویژگی های یک نمونه از توزیع مورد نظر نیز به عنوان ورودی LA مطرح است. این بردار از ویژگی ها، بردار زمینه نیز نامیده میشود. [12] یک راه حل این مسائل استفاده ازGLA است. درGLA ساختارLA به نحوی تغییر یافته که اجازه میدهد بردار زمینه به عنوان ورودی به آن اعمال شود.
-3-3 استفاده ازشبکه اتوماتای یادگیر درحل MDP ها
مساله کنترل زنجیره مارکوف میتواند به صورت شبکهای از اتوماتاهایی بیان گردد که درآن، درهرلحظه فقط یک اتوماتای یادگیر فعال بوده و انتقال از یک وضعیت به وضعیت دیگر، اتوماتای مربوط به وضعیت جدید را فعال می نماید. این فرآیند تا زمانیکه بردار احتمالهای کلیه اتوماتاهای یادگیر به پایداری برسد و یا شرط خاصی برقرار گردد، تکرار میشود.