بخشی از مقاله
چکیده
"تکرار سیاست کمترین مربعات فازی" الگوریتمی جدید در ترکیب یادگیری تقویتی و فازی میباشد. این روش از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده است و در فضای حالت و عمل پیوسته قابل اجرا است. این الگوریتم بر روی تعدادی از مسائل پیاده سازی شده است و کارایی آن در مقایسه با الگوریتمهای موجود یادگیری تقویتی فازی دیده شده است.
در این مقاله تحلیل ریاضی مثبتی برای این الگوریتم ارائه میدهیم. این تحلیل ریاضی، علاوه بر اثبات کارآمدی سیستم فازی تعریف شده در روش تکرار سیاست کمترین مربعات فازی، منجر به تعریف یک کران خطا برای این الگوریتم میشود. کران خطای به دست آمده، کارایی الگوریتم تکرار سیاست کمترین مربعات فازی را در صورت داشتن شرایط مطلوب در طول فرآیند یادگیری، تضمین میکند.
-1 مقدمه
در این مقاله تحلیل ریاضی مثبتی برای روش جدید "تکرار سیاست کمترین مربعات فازی" * - FLSPI - بیان خواهد شد. این تحلیل ریاضی منجر به تعریف یک کران خطا برای روش FLSPI میشود. روش FLSPI در زمره روشهای یادگیری تقویتی فازی قرار دارد. این روش از ترکیب روش "تکرار سیاست کمترین مربعات" [1] - LSPI - با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده است.
روش LSPI توسط بر روی فضای حالت و عمل متناهی ارائه شده است. این روش، دارای یک الگوریتم تکراری است که در هر تکرار دو مرحله دارد: ارزیابی سیاست، مقدار تابع حالت-عمل را محاسبه میکند و بهبود سیاست، سیاست حریصانه بهبود یافته را با استفاده از تابع حالت-عمل مرحله قبل تعریف میکند. تحلیل ریاضی LSPI با استناد به تحلیل ریاضی روش "تکرار سیاست" [2] - PI - قابل ارائه است.
مرجع [3] این روش را به صورت online-LSPI برای فضای حالت نامتناهی و عمل متناهی اصلاح کرده است، اما هیچ تحلیل ریاضی و تضمین همگرایی برای آن وجود ندارد.
پیش از این، دو روش در ترکیب یادگیری تقویتی با فازی ارائه شده است. روش یادگیری کیوی فازی توسط [5 , 4] بیان شده و مورد بررسی قرار گرفته است. این روش جزء روشهای ابتکاری است و فاقد تحلیل ریاضی میباشد. پس از آن روش یادگیری سارسای فازی توسط [6] ارائه شده که وجود نقاط ایستا برای آن ثابت شده است اما شرطی برای همگرایی و یا کران خطایی برای آن مشخص نشده است. در پیاده سازیهای انجام شده، کارایی بالا و عملکرد مطلوب روش FLSPI در مقایسه با این دو روش نشان داده شده است.
در این مقاله تحلیل ریاضی FLSPI بیان میشود و یک کران خطا برای تقریب حاصل از این الگوریتم تعریف میشود.
آن چه که در ادامه میآید به این صورت بخش بندی شده است: در بخش 2، مروری کوتاه بر روش کمترین مربعات تکرار سیاست فازی شده است، دربخش 3 تحلیل ریاضی روش مذکور مطرح شده است و بخش 5 شامل جمع بندی و نتایج میباشد.
-2 مروری کوتاه بر کمترین مربعات تکرار سیاست فازی - - FLSPI
-1-2 یادگیری تقویتی
در یک سیستم مبتنی بر عامل با یادگیری تقویتی، در هر قدم زمانی t، عامل، حالت فعلی را از فضای حالت S مشاهده نموده و عملی را از فضای عمل متناهی A، بر اساس سیاست π انجام میدهد. در پی آن، محیط به حالت جدید +1 از فضای حالت S با احتمال انتقال - , , +1 - رفته و سیگنال تقویتی ℛ +1 = ℛ - , - را دریافت می کند.
سیاست که با - , - نشان داده میشود، احتمال انتخاب عمل a در حالت s میباشد. مبنای کار در یادگیری تقویتی بر اساس پاداش و جریمه است و هدف، حداکثر کردن مجموع پاداشهای دریافتی در طول یادگیری میباشد . بر این اساس عامل یاد میگیرد عملی را انتخاب کند که او را به حالتی با بیشترین ارزش برساند.ارزش حالت s تحت سیاست π توسط تابع زیر تعریف میشود:
که نرخ کاهش و Eπ[. ] امید ریاضی میباشد . به طور مشابه، تابع ارزش حالت-عمل برای عمل a و حالت s به صورت زیر تعریف میشود.
-2-2 کمترین مربعات تکرار سیاست - - LSPI
روش تکرار سیاست - [7] - PI یکی از روشهای یادگیری تقویتی است که سیاست بهینه را برای هر زنجیره تصمیم مارکوف به وسیله تولید دنباله ای از سیاستها در فضای گسسته به دست میآورد. PI، یک الگوریتم تکراری است که در هر تکرار آن دو مرحله وجود دارد: ارزیابی سیاست، مقدار تابع را از سیاست فعلی محاسبه میکند:
بهبود سیاست، سیاست حریصانه بهبود یافته +1 را روی تعریف می کند:
این روش در فضای حالت و عمل متناهی دارای کارایی بالایی است و توسط [2] تحلیل ریاضی شده است. مقدار دقیق را میتوان از حل معادله زیر به دست آورد که عملگر بلمن تحت سیاست π میباشد و به صورت زیر تعریف میشود
این روش مانند روشهای دیگر یادگیری تقویتی در فضاهای بزرگ، دچار مشکل تنگنای ابعاد میباشد.
روش کمترین مربعات سیاست تکراری - - LSPI را با استفاده از روش سیاست تکراری - - PI برای رفع مشکل تنگنای ابعاد، ارائه نموده است. این روش از روشهایی است که به جای محاسبه دقیق تابع ارزش حالت-عمل ، تقریب آن یعنی ̂ را محاسبه مینماید. مبنای LSPI، از بین بردن خطای حاصل از ̂ و تصویر آن تحت عملگر بلمن است.
در حالت کلی میتوان تقریب تابع ارزش حالت-عمل را چنین تعریف کردکه در آن ماتریس وزنها و ماتریس توابع پایه هستند:
که ℛ پاداش انتقال از حالت به حالت ′ است وقتی که عمل انتخاب شده باشد.
کران خطایی برای LSPI تعریف شده است
-3-2 کمترین مربعات تکرار سیاست فازی
در روش ارائه شده FLSPI، فضای حالت و عمل، نامتناهی در نظر گرفته شده است. FLSPI، از سیستم فازی سوگنو مرتبه صفر استفاده مینماید که دارای R قاعده به شکل زیر است:
که = - 1, … , - برداری از فضای ورودی -nبعدی و = 1 × … × ، فضای -nبعدی محدب است و مجموعههای فازی قاعده iام دارای مراکز یکتا هستند. m، تعداد عملهای ممکن برای هر قانون و ، jامین عمل کاندید برای قاعده iام با وزن میباشد. هدف FLSPI تقریب به صورت آنلاین برای رسیدن به سیاست بهینه است.
شدت آتش هر قاعده از حاصل ضرب پیشینهای مجموعههای فازی به دست میآید و توابع شدت آتش نرمال شده قواعد، به عنوان توابع پایه در نظر گرفته میشوند.
که - - ، شدت آتش نرمال شده قاعده iام به ازای ورودی s و m، تعداد عملها میباشد.
روال الگوریتم FLSPI را میتوان به صورت زیر خلاصه کرد:
-1 حالت اولیه را مشاهده کن.
-2 اندیس مربوط به بیشترین وزن مربوط به هر قانون را با استفاده از سیاست شبه حریصانه پیدا کن - برای قاعده iام این اندیس را +مینامیم - .
-3 تا زمانی که به انتهای اپیسود نرسیده ای مراحل زیر را تکرار کن.
-4 تساوی را برای به دست آوردن حل کن.
-5 تا زمانی که شرط توقف برقرار نیست مراحل 1-4 را تکرار کن. به روز رسانی متغیرهای A و b، توسط فرمولهای - 3 - و - 4 - ، در هر قدم زمانی و به روزرسانی بردار وزن W توسط فرمول - 5 - ، در هر اپیسود انجام میشود. در صورتی که این الگوریتم برای موارد غیر اپیسودیک استفاده شود، به جای به روز رسانی بردار وزن بعد از هر اپیسود، این بردار، بعد از تعداد مشخصی قدم زمانی به روز رسانی میشود.
لازم به یادآوری است که به روز رسانی بردار در واقع به روز رسانی تقریب تابع حالت-عمل میباشد و منجر به استخراج سیاست جدید میشود
-3 تحلیل ریاضی
در این بخش، مباحثی مطرح میشود که منجر به تعریف کران برای خطای تقریب تابع حالت-عمل و مقدار بهینه تابع حالت –عمل میباشد.
آنچه از گزاره1 نتیجه میشود این است که برای هر تابع دلخواه میتوان تابعی از سیستم فازی استفاده شده در الگوریتم FLSPI یافت که با هر دقت دلخواهی آن را تقریب بزند.
قضیه 1 - استون-وایرشتراس - :
اگر Z یک مجموعه از توابع پیوسته روی فضای محدب X باشد و اگر :
الف - Z یک جبر باشد یعنی نسبت به جمع و ضرب اسکالر و ضرب بسته باشد.
ب - Z نقاط روی X را جدا کند
ج - Z روی هیچ نقطه ای از X صفر نشود