مقاله تحلیل ریاضی روش تکرار سیاست کمترین مربعات فازی

فایل pdf

6 صفحه

قیمت مقاله 000 49 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده

"تکرار سیاست کمترین مربعات فازی" الگوریتمی جدید در ترکیب یادگیری تقویتی و فازی میباشد. این روش از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده است و در فضای حالت و عمل پیوسته قابل اجرا است. این الگوریتم بر روی تعدادی از مسائل پیاده سازی شده است و کارایی آن در مقایسه با الگوریتمهای موجود یادگیری تقویتی فازی دیده شده است.

در این مقاله تحلیل ریاضی مثبتی برای این الگوریتم ارائه میدهیم. این تحلیل ریاضی، علاوه بر اثبات کارآمدی سیستم فازی تعریف شده در روش تکرار سیاست کمترین مربعات فازی، منجر به تعریف یک کران خطا برای این الگوریتم میشود. کران خطای به دست آمده، کارایی الگوریتم تکرار سیاست کمترین مربعات فازی را در صورت داشتن شرایط مطلوب در طول فرآیند یادگیری، تضمین میکند.

-1 مقدمه

در این مقاله تحلیل ریاضی مثبتی برای روش جدید "تکرار سیاست کمترین مربعات فازی" * - FLSPI - بیان خواهد شد. این تحلیل ریاضی منجر به تعریف یک کران خطا برای روش FLSPI میشود. روش FLSPI در زمره روشهای یادگیری تقویتی فازی قرار دارد. این روش از ترکیب روش "تکرار سیاست کمترین مربعات" [1] - LSPI - با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده است.

روش LSPI توسط بر روی فضای حالت و عمل متناهی ارائه شده است. این روش، دارای یک الگوریتم تکراری است که در هر تکرار دو مرحله دارد: ارزیابی سیاست، مقدار تابع حالت-عمل را محاسبه میکند و بهبود سیاست، سیاست حریصانه بهبود یافته را با استفاده از تابع حالت-عمل مرحله قبل تعریف میکند. تحلیل ریاضی LSPI با استناد به تحلیل ریاضی روش "تکرار سیاست" [2] - PI - قابل ارائه است.

مرجع [3] این روش را به صورت online-LSPI برای فضای حالت نامتناهی و عمل متناهی اصلاح کرده است، اما هیچ تحلیل ریاضی و تضمین همگرایی برای آن وجود ندارد.

پیش از این، دو روش در ترکیب یادگیری تقویتی با فازی ارائه شده است. روش یادگیری کیوی فازی توسط [5 , 4] بیان شده و مورد بررسی قرار گرفته است. این روش جزء روشهای ابتکاری است و فاقد تحلیل ریاضی میباشد. پس از آن روش یادگیری سارسای فازی توسط [6] ارائه شده که وجود نقاط ایستا برای آن ثابت شده است اما شرطی برای همگرایی و یا کران خطایی برای آن مشخص نشده است. در پیاده سازیهای انجام شده، کارایی بالا و عملکرد مطلوب روش FLSPI در مقایسه با این دو روش نشان داده شده است.

در این مقاله تحلیل ریاضی FLSPI بیان میشود و یک کران خطا برای تقریب حاصل از این الگوریتم تعریف میشود.

آن چه که در ادامه میآید به این صورت بخش بندی شده است: در بخش 2، مروری کوتاه بر روش کمترین مربعات تکرار سیاست فازی شده است، دربخش 3 تحلیل ریاضی روش مذکور مطرح شده است و بخش 5 شامل جمع بندی و نتایج میباشد.

-2 مروری کوتاه بر کمترین مربعات تکرار سیاست فازی - - FLSPI

-1-2 یادگیری تقویتی

در یک سیستم مبتنی بر عامل با یادگیری تقویتی، در هر قدم زمانی t، عامل، حالت فعلی را از فضای حالت S مشاهده نموده و عملی را از فضای عمل متناهی A، بر اساس سیاست π انجام میدهد. در پی آن، محیط به حالت جدید +1 از فضای حالت S با احتمال انتقال - , , +1 - رفته و سیگنال تقویتی ℛ +1 = ℛ - , - را دریافت می کند.

سیاست که با - , - نشان داده میشود، احتمال انتخاب عمل a در حالت s میباشد. مبنای کار در یادگیری تقویتی بر اساس پاداش و جریمه است و هدف، حداکثر کردن مجموع پاداشهای دریافتی در طول یادگیری میباشد . بر این اساس عامل یاد میگیرد عملی را انتخاب کند که او را به حالتی با بیشترین ارزش برساند.ارزش حالت s تحت سیاست π توسط تابع زیر تعریف میشود:
که نرخ کاهش و Eπ[. ] امید ریاضی میباشد . به طور مشابه، تابع ارزش حالت-عمل برای عمل a و حالت s به صورت زیر تعریف میشود.

-2-2 کمترین مربعات تکرار سیاست - - LSPI

روش تکرار سیاست - [7] - PI یکی از روشهای یادگیری تقویتی است که سیاست بهینه را برای هر زنجیره تصمیم مارکوف به وسیله تولید دنباله ای از سیاستها در فضای گسسته به دست میآورد. PI، یک الگوریتم تکراری است که در هر تکرار آن دو مرحله وجود دارد: ارزیابی سیاست، مقدار تابع را از سیاست فعلی محاسبه میکند:
بهبود سیاست، سیاست حریصانه بهبود یافته +1 را روی تعریف می کند:
این روش در فضای حالت و عمل متناهی دارای کارایی بالایی است و توسط [2] تحلیل ریاضی شده است. مقدار دقیق را میتوان از حل معادله زیر به دست آورد که عملگر بلمن تحت سیاست π میباشد و به صورت زیر تعریف میشود

این روش مانند روشهای دیگر یادگیری تقویتی در فضاهای بزرگ، دچار مشکل تنگنای ابعاد میباشد.

روش کمترین مربعات سیاست تکراری - - LSPI را با استفاده از روش سیاست تکراری - - PI برای رفع مشکل تنگنای ابعاد، ارائه نموده است. این روش از روشهایی است که به جای محاسبه دقیق تابع ارزش حالت-عمل ، تقریب آن یعنی ̂ را محاسبه مینماید. مبنای LSPI، از بین بردن خطای حاصل از ̂ و تصویر آن تحت عملگر بلمن است.

در حالت کلی میتوان تقریب تابع ارزش حالت-عمل را چنین تعریف کردکه در آن ماتریس وزنها و ماتریس توابع پایه هستند:

که ℛ پاداش انتقال از حالت به حالت ′ است وقتی که عمل انتخاب شده باشد.

کران خطایی برای LSPI تعریف شده است

-3-2 کمترین مربعات تکرار سیاست فازی

در روش ارائه شده FLSPI، فضای حالت و عمل، نامتناهی در نظر گرفته شده است. FLSPI، از سیستم فازی سوگنو مرتبه صفر استفاده مینماید که دارای R قاعده به شکل زیر است:

که = - 1, … , - برداری از فضای ورودی -nبعدی و = 1 × … × ، فضای -nبعدی محدب است و مجموعههای فازی قاعده iام دارای مراکز یکتا هستند. m، تعداد عملهای ممکن برای هر قانون و ، jامین عمل کاندید برای قاعده iام با وزن میباشد. هدف FLSPI تقریب به صورت آنلاین برای رسیدن به سیاست بهینه است.

شدت آتش هر قاعده از حاصل ضرب پیشینهای مجموعههای فازی به دست میآید و توابع شدت آتش نرمال شده قواعد، به عنوان توابع پایه در نظر گرفته میشوند.
که - - ، شدت آتش نرمال شده قاعده iام به ازای ورودی s و m، تعداد عملها میباشد.

روال الگوریتم FLSPI را میتوان به صورت زیر خلاصه کرد:

-1 حالت اولیه را مشاهده کن.

-2 اندیس مربوط به بیشترین وزن مربوط به هر قانون را با استفاده از سیاست شبه حریصانه پیدا کن - برای قاعده iام این اندیس را +مینامیم - .

-3 تا زمانی که به انتهای اپیسود نرسیده ای مراحل زیر را تکرار کن.

-4 تساوی را برای به دست آوردن حل کن.

-5 تا زمانی که شرط توقف برقرار نیست مراحل 1-4 را تکرار کن. به روز رسانی متغیرهای A و b، توسط فرمولهای - 3 - و - 4 - ، در هر قدم زمانی و به روزرسانی بردار وزن W توسط فرمول - 5 - ، در هر اپیسود انجام میشود. در صورتی که این الگوریتم برای موارد غیر اپیسودیک استفاده شود، به جای به روز رسانی بردار وزن بعد از هر اپیسود، این بردار، بعد از تعداد مشخصی قدم زمانی به روز رسانی میشود.

لازم به یادآوری است که به روز رسانی بردار در واقع به روز رسانی تقریب تابع حالت-عمل میباشد و منجر به استخراج سیاست جدید میشود

-3 تحلیل ریاضی

در این بخش، مباحثی مطرح میشود که منجر به تعریف کران برای خطای تقریب تابع حالت-عمل و مقدار بهینه تابع حالت –عمل میباشد.

آنچه از گزاره1 نتیجه میشود این است که برای هر تابع دلخواه میتوان تابعی از سیستم فازی استفاده شده در الگوریتم FLSPI یافت که با هر دقت دلخواهی آن را تقریب بزند.

قضیه 1 - استون-وایرشتراس - :

اگر Z یک مجموعه از توابع پیوسته روی فضای محدب X باشد و اگر :

الف - Z یک جبر باشد یعنی نسبت به جمع و ضرب اسکالر و ضرب بسته باشد.

ب - Z نقاط روی X را جدا کند

ج - Z روی هیچ نقطه ای از X صفر نشود

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/68287

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله تحلیل ریاضی روش تکرار سیاست کمترین مربعات فازی

بخشی از مقاله

چرا مگ ایرانز؟

مقاله در مورد حل مساله کمترین مربعات وزندار با استفاده از تجزیه قائم کامل

دانلود پاورپوینت 21 روش غلبه بر تنبلی و انجام بیش ترین کاردر کمترین زمان

دانلود مقاله تحلیل کمی و کیفی مواد با استفاده از کتابخانه ی دادههای PGNAA و بر اساس دو روش شبکه عصبی و حداقل مربعات

دانلود فایل پاورپوینت 21 روش غلبه بر تنبلی و انجام بیش ترین کاردر کمترین زمان

مقاله برآورد نااریب ضرایب در مدل های خطای اندازه گیری به روش کمترین مربعات تعمیم یافته

مقاله تاثیراستقرار سیستم مدیریت ایمنی و بهداشت حرفه ای بر شاخص شدت حوادث ( حادثه ، تکرار حادثه ، شدت تکرار حادثه ) ( مطالعه موردی سد گتوند علیا )

مقاله تخمین توابع خطی و لگاریتمی تقاضای بنزین خانوارهای شهری به روش حداقل مربعات بین سالهای 1389 - 1367

مقاله تحلیل ارتعاشات تیر از ماده تابعی به روش مربعات دیفرانسیلی

مقاله تحلیل رگرسیون استوار فازی براساس کمترین قدرمطلق خطاها و رتبه بندی مجموعه های فازی

مقاله تحلیل مکانیزه نمودن سازمان با کمترین هزینه و بالاترین کیفیت با استفاده از فرایند تحلیل سلسه مراتبی AHP

مقاله تخمین عمق و ضریب شکل آنومالی های گرانی سنجی با استفاده از روش کمترین مربعات - مطالعه موردی : داده های میکرو گرانی سنجی سایت هواسان

مقاله تخمین کمترین تعداد مولفه های تابع تمایز قطعه‌ای خطی در تحلیل ممیز با استفاده از تحلیل پوششی داده‌ها

مقاله تعیین مرز های نا پیوستگی چکالی درون زمین با داده های شتاب جاذبه در تقریب صفحه ای به روش کالوکیشن کمترین مربعات

مقاله تحلیل صفحات حاوی ترک به روش بدون المان حداقل مربعات گسسته

مقاله رابطه خودپنداره ریاضی و نگرش دانش‌آموزان به درس ریاضی با اضطراب ریاضی در دانش‌آموزان دختر پایه ششم دبستان

مقاله رگرسیون وزنی فازی کمترین قدرمطلق خطا

مقاله روش مربعات دیفرانسیلی در تحلیل عددی ارتعاشات تیر کامپوزیتی چند لایه

مقاله روش های نوین آبیاری با کمترین هدر رفت منابع آبی و بالاترین کارآیی

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله تحلیل ریاضی روش تکرار سیاست کمترین مربعات فازی

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

مقاله در مورد حل مساله کمترین مربعات وزندار با استفاده از تجزیه قائم کامل

دانلود پاورپوینت 21 روش غلبه بر تنبلی و انجام بیش ترین کاردر کمترین زمان

دانلود مقاله تحلیل کمی و کیفی مواد با استفاده از کتابخانه ی دادههای PGNAA و بر اساس دو روش شبکه عصبی و حداقل مربعات

دانلود فایل پاورپوینت 21 روش غلبه بر تنبلی و انجام بیش ترین کاردر کمترین زمان

مقاله برآورد نااریب ضرایب در مدل های خطای اندازه گیری به روش کمترین مربعات تعمیم یافته

مقاله تاثیراستقرار سیستم مدیریت ایمنی و بهداشت حرفه ای بر شاخص شدت حوادث ( حادثه ، تکرار حادثه ، شدت تکرار حادثه ) ( مطالعه موردی سد گتوند علیا )

مقاله تخمین توابع خطی و لگاریتمی تقاضای بنزین خانوارهای شهری به روش حداقل مربعات بین سالهای 1389 - 1367

مقاله تحلیل ارتعاشات تیر از ماده تابعی به روش مربعات دیفرانسیلی

مقاله تحلیل رگرسیون استوار فازی براساس کمترین قدرمطلق خطاها و رتبه بندی مجموعه های فازی

مقاله تحلیل مکانیزه نمودن سازمان با کمترین هزینه و بالاترین کیفیت با استفاده از فرایند تحلیل سلسه مراتبی AHP

مقاله تخمین عمق و ضریب شکل آنومالی های گرانی سنجی با استفاده از روش کمترین مربعات - مطالعه موردی : داده های میکرو گرانی سنجی سایت هواسان

مقاله تخمین کمترین تعداد مولفه های تابع تمایز قطعه‌ای خطی در تحلیل ممیز با استفاده از تحلیل پوششی داده‌ها

مقاله تعیین مرز های نا پیوستگی چکالی درون زمین با داده های شتاب جاذبه در تقریب صفحه ای به روش کالوکیشن کمترین مربعات

مقاله تحلیل صفحات حاوی ترک به روش بدون المان حداقل مربعات گسسته

مقاله رابطه خودپنداره ریاضی و نگرش دانش‌آموزان به درس ریاضی با اضطراب ریاضی در دانش‌آموزان دختر پایه ششم دبستان

مقاله رگرسیون وزنی فازی کمترین قدرمطلق خطا

مقاله روش مربعات دیفرانسیلی در تحلیل عددی ارتعاشات تیر کامپوزیتی چند لایه

مقاله روش های نوین آبیاری با کمترین هدر رفت منابع آبی و بالاترین کارآیی

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران