مقاله یادگیری تقویتی روبات مسیریاب با استفاده از روش یادگیری کیو عصبی

word قابل ویرایش
14 صفحه
دسته : اطلاعیه ها
8700 تومان

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

یادگیری تقویتی روبات مسیریاب با استفاده از روش یادگیری کیو عصبی
چکیده
ربات مسیر یاب یک محک خوب برای مسائل هوش مصنوعی و رباتیک است . تصمیم گیری یکی از مهترین بخش های ربات های مسیر یاب است .در محیط هایی با دینامیک های پیچیده یکی از روش های یادگیری تقویتی که در فرایند های تصمیم گیری مورد استفاده قرار میگیرد Neural q_learning است .در این مقاله روش مورد نظر را با دو روش Value iterationو Q learning که دو تا از مرسوم ترین روش های یادگیری تقویتی هستند مقایسه کرده و با توجه به نتایج بدست آمده کار آمد بودن روش Neural q_learning در مقایسه با دو روش دیگر به نمایش در خواهد آمد.
واژه های کلیدی ربات ،یادگیری تقویتی،تصمیم گیری،Value iteration، Neural q_learning ،Q learning

١ – مقدمه
یکی از اهداف علم رباتیک بوجود آوردن ربات های خود مختار است .و یکی از مهمترین مشکلات در این زمینه این است که ربات در وضعیت های مختلف چه تصمیمی باید بگیرد تا بتواند به اهداف تعیین شده دست یابد. طراحی حرکت یعنی راهنمایی کردن ربات برای رسیدن از یک پیکره بندی اولیه به یک پیکره بندی نهایی بدون برخورد به موانع و در یک مدت زمان محدود.
روش های زیادی برای حل مسئله طراحی مسیر وجود دارد که که یکی از این روش ها یادگیری تقویتی ١ می باشد ۲ یادگیری تقویتی یکی از موثر ترین راه ها برای آموزش عامل در محیط های ناشناخته است ، جایی که هیچ اطلاعات مفیدی برای آموزش عامل (ربات )وجود ندارد. در این روش ربات با توجه به اعمالی که در محیط انجام می دهد پاداش هایی ۶۱۱ یا(تنبیه هایی) در یافت می کند که خوب بودن یا بد بودن آن عمل را مشخص میکند .بنابراین ربات یاد میگیرد که چه اعمالی باعث حداکثر شدن مفدار پاداش دریافتی می شود .در یکی سیستم یادگیری تقویتی علاوه بر ربات و محیط سه عنصر دیگر نیز در تصمیم گیری ها دخیل هستند : سیاست ، ۳ تابع پاداش ۴ و تابع ارزش ۵. سیاست ، رفتار سیستم در زمان فعلی را مشخص می کند.تابع پاداش ، هدف ربات را در مسئله یادگیری تقویتی تعیین می کند، و در یک برداشت سریع از مسئله نشان می دهد که چه چیزی خوب است ، تابع ارزش نشان می دهد که چه چیزی در دراز مدت خوب است . سه روش یادگیری تقویتی در این مقاله برای مسئله ربات مسیر یاب ذکر شده است : Q_learning،Value iteration ، Neuro q_learning. در بخش دو، مولفه های تشکیل دهنده یادگیری تقویتی را بیان خواهیم کرد.در بخش سه به معرفی روش Value iteration می پردازیم بخش چهار روش Q_learning وبخش پنج Neuro q_learning را بیان خواهیم کرد.هر کدام از روش ها را معرفی کرده و نتایج مربوط به پیاده سازی آن روش بر روی یک ربات مسیر یاب را در بخش شش به نمایش در خواهیم آورد وآنگاه به بررسی نتایج و مقایسه سه روش با یکدیگر خواهیم پرداخت .
٢ یادگیری تقویتی
روشهای یادگیری تقویتی نشان می دهد که چگونه یک عامل بر اساس تجربه ای که از تعامل با محیط بدست می اورد سیاست خود را تغییر می دهد
٢-١ عامل و محیط
تصمیم گیرنده وکسی را که یاد می گیرد را عامل گویند و چیزی که عامل با آن تعامل میکند را محیط می نامیم در هر گام t عامل وضعیت جدیدی را از محیط در یافت می کند که s مجموعه وضعیت های ممکن برای محیط است و بر مبنای این وضعیت عمل خود را انجام می دهد که مجموعه عملهای ممکنی است که عامل می تواند در وضغیت انجام دهد در گام بعد محیط یک پاداش عددی به او می دهد و عامل خود را در وضعیت جدیدی می بیند سیاست یا ستراتژِی عامل ∏ تابع احتمالی است که احتمال انتخاب شدن هر عمل را در هر وضعیت و با توجه به گام زمانی مشخص می کند روشهای یادگیری تقویتی نشان میدهد که چگونه یک عامل براساس تجربه ای که با تعامل با محیط بدست می اورد سیاست خود را عوض می کند.
٢-٢ اهداف وپاداش
دقت شود بیشینه کردن پاداش در بلند مدت مد نظر است و با بیشینه کردن پاداش در هر مرحله اشتباه نشود.
نکته مهمی که باید مد نظر قرار گیرد این است که باید پاداش را به گونه ای اختصاص دهیم که عامل با بیشینه کردن آن هدف ما را تامین سازد و و نباید به او یاد داد که چگونه هدف را براورده سازد در واقع سیگنال پاداش کانال ارتباطی شما با عامل است که بوسیله ان به عامل می گوید به چه وسیله ای به آن برسد نه این که چگونه به هدف برسد حال به فرموله کردن مفهوم پاداش می پردازیم .اگر ترتیب پاداش هایی که بعد از مرحله t ام میگیرد. بصورت باشد وی بدنبال بیشینه کردن امید ریاضی کل خواهد بود که پاداش کل بصورت جمع پاداش های هر مرحله خواهد بود.

که در اینجا امید ریاضی کل پاداش ها می باشد.
٢-٣ خاصیت مارکوف
همه مشخصه های ذکر شده بین عامل و محیط در یک مسئله یادگیری تقویتی می تواند بطور کامل در ترم های فرایند تصمیم گیری مارکوف وجود داشته باشد در حالت ایده ال , مطلوب برای ما این است که یک سیگنال وضعیتی داشته باشیم که تمام اطلاعات مربوط به گذشته را در خودخلاصه کند اما همه اطلاعات گذشته بدرد ما نمی خورد بنابراین باید اطلاعاتی را در خود جای دهد که برای ما مفید است .یک سیگنال وضعیتی که موفق شود همه اطلاعات مفید را در خود جای دهد دارای خاصیت مارکوف است .مثلا موقعیت کنونی مهره های شطرنج در صفحه دارای خاصیت مارکوف است بدلیل اینکه تمام چیزی که برای اتمام نیاز داریم را در اختیار دارد. (١) مسئله ای که بر روی آن کار می کنیم یک ربات مسیر یاب است که بر روی یک محیط گسسته به دنبال هدف خود می گردد محیطی که ما در این مسئله استفاده کردیم به صورت شکل زیر است . اگر سیستم دارای خاصیت مارکوف باشد،پاسخ محیط در زمان T+1 تنها به وضعیت محیط و عمل انجام گرفته در زمان t بستگی دارد یعنی دینامیک سیستم با معلوم بودن توزیع احتمال زیر برای تمام مقادیر ممکن مشخص خواهد بود.

حال با استفاده از فرمول بالا و با داشتن وضعیت و عمل در زمان t می توان وضعیت محیط و پاداش انتظاری در زمان ۱+t را پیش بینی کرد علاوه بر این با استفاده بازگشتی از فرمول بالاو با داشتن وضعیت وعمل در زمان t می توان تمام وضعیت و پادش های انتظاری در زمان های بعدی را نیز بدست آورد.
٢-۴ تابع ارزش و تابع ارزش بهینه :
تقریبا تمامی الگوریتم های یادگیری تقویتی بر پایه تخمین تابع ارزش وضعیت بنا نهاده شده است . بطور نادقیق می توان ارزش وضعیت را معیاری ار خوب بودن ان وضعیت در نظر گرفت ارزش وضعیت را می توان این گونه توضیح داد که امید ریاضی پاداش کلی است که عامل باشروع از وضعیت و پیش گرفتن سیاست ∏ بدست می اورد بدیهی است تابع ارزش با توجه به یک سیاست خاص تعیین می شود

نشان دهنده امید ریاضی است در صورتی که از سیاست ∏ پیروی شود.
معادله زیر رابطه بین ارزش وضعیت s و ارزش حالات وقوع یافته بلافاصله بعد از آن را بیان می کند

شکل ٢-١:مسیر به همراه موانع
با توجه به شکل در می یابیم که ما دارای ٨١ وضعیت هستیم در هر وضعیت می توانیم یکی از ۴ عمل بالا، پایین ، چپ یا راست را انتخاب کنیم در این مسئله باید ربات طوری حرکت کند که بتواند بدون برخورد به موانع خود را به موقعیت هدف برساند.
یکی دیگر از مولفه های یادگیری تقویتی تعیین سیاست است .
در حالت کلی سیاست یک نگاشتی است از وضعیت ها به اعمال .و متعاقبا هر سیاست یک تابع مقدار دارد که کیفیت رفتار عامل را مشخص می کند
٣ یادگیری تکرار ارزش
VI یک روال تکراری است که ارزش هر حالت را با استفاده از ارزش حالت های همسایه محاسبه میکند و این کار انقدر ادامه می یابد تا زمانیکه ارزش یک وضعیت در دو تکرار از یک مقدار آستانه کمتر شود بعبارت دیگر داریم :

که در اینجا ،همان مقدار آستانه می باشد.و مقدار ارزش وضعیت در گام t و مقدار ارزش وضعیت در گام ١+t می باشد. توجه داشته باشید هر چه مقدار کوچکتر باشد دقت الگوریتم بیشتر است . با توجه به ماتریس ارزشی که برای وضعیت ها داریم میتوانیم سیاست متناظر با این ماتریس را پیدا کنیم :

در اینجا سیاست بهینه است زمانیکه ارزش حالتهای ما به همگرایی رسیده باشد.و احتمال حالت گذر از وضعیت i به وضعیت j با انجام عمل a است .
شبه کد الگوریتم Value iteration بصورت زیر میباشد:

جدول ٣-١: شبه کد برای الگوریتم Value iteration
۴ یادگیری کیو
یادگیری q ،یک تابع ارزش وضعیت -عمل را بر اساس تجربه با محیط یاد میگیرد، که بصورت تابع کیو شناخته می شود.یادگیری کیو ،حالت گسترش یافته الگوریتم Value iteration است که برای مسائلی که دچار عدم قطعیت نیز هستند بکار می رود. در یادگیری کیو بجای نگاشت از وضعیت ها به مقادیر وضعیت ها نگاشتی از زوج وضعیت -عمل به مقادیری که مقدار کیو نامیده می

این فقط قسمتی از متن مقاله است . جهت دریافت کل متن مقاله ، لطفا آن را خریداری نمایید
wordقابل ویرایش - قیمت 8700 تومان در 14 صفحه
سایر مقالات موجود در این موضوع
دیدگاه خود را مطرح فرمایید . وظیفه ماست که به سوالات شما پاسخ دهیم

پاسخ دیدگاه شما ایمیل خواهد شد