بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

يادگيري تقويتي روبات مسيرياب با استفاده از روش يادگيري کيو عصبي
چکيده
ربات مسير ياب يک محک خوب براي مسائل هوش مصنوعي و رباتيک است . تصميم گيري يکي از مهترين بخش هاي ربات هاي مسير ياب است .در محيط هايي با ديناميک هاي پيچيده يکي از روش هاي يادگيري تقويتي که در فرايند هاي تصميم گيري مورد استفاده قرار ميگيرد Neural q_learning است .در اين مقاله روش مورد نظر را با دو روش Value iterationو Q learning که دو تا از مرسوم ترين روش هاي يادگيري تقويتي هستند مقايسه کرده و با توجه به نتايج بدست آمده کار آمد بودن روش Neural q_learning در مقايسه با دو روش ديگر به نمايش در خواهد آمد.
واژه هاي کليدي ربات ،يادگيري تقويتي،تصميم گيري،Value iteration، Neural q_learning ،Q learning

١ - مقدمه
يکي از اهداف علم رباتيک بوجود آوردن ربات هاي خود مختار است .و يکي از مهمترين مشکلات در اين زمينه اين است که ربات در وضعيت هاي مختلف چه تصميمي بايد بگيرد تا بتواند به اهداف تعيين شده دست يابد. طراحي حرکت يعني راهنمايي کردن ربات براي رسيدن از يک پيکره بندي اوليه به يک پيکره بندي نهايي بدون برخورد به موانع و در يک مدت زمان محدود.
روش هاي زيادي براي حل مسئله طراحي مسير وجود دارد که که يکي از اين روش ها يادگيري تقويتي ١ مي باشد 2 يادگيري تقويتي يکي از موثر ترين راه ها براي آموزش عامل در محيط هاي ناشناخته است ، جايي که هيچ اطلاعات مفيدي براي آموزش عامل (ربات )وجود ندارد. در اين روش ربات با توجه به اعمالي که در محيط انجام مي دهد پاداش هايي 611 يا(تنبيه هايي) در يافت مي کند که خوب بودن يا بد بودن آن عمل را مشخص ميکند .بنابراين ربات ياد ميگيرد که چه اعمالي باعث حداکثر شدن مفدار پاداش دريافتي مي شود .در يکي سيستم يادگيري تقويتي علاوه بر ربات و محيط سه عنصر ديگر نيز در تصميم گيري ها دخيل هستند : سياست ، 3 تابع پاداش ٤ و تابع ارزش ٥. سياست ، رفتار سيستم در زمان فعلي را مشخص مي کند.تابع پاداش ، هدف ربات را در مسئله يادگيري تقويتي تعيين مي کند، و در يک برداشت سريع از مسئله نشان مي دهد که چه چيزي خوب است ، تابع ارزش نشان مي دهد که چه چيزي در دراز مدت خوب است . سه روش يادگيري تقويتي در اين مقاله براي مسئله ربات مسير ياب ذکر شده است : Q_learning،Value iteration ، Neuro q_learning. در بخش دو، مولفه هاي تشکيل دهنده يادگيري تقويتي را بيان خواهيم کرد.در بخش سه به معرفي روش Value iteration مي پردازيم بخش چهار روش Q_learning وبخش پنج Neuro q_learning را بيان خواهيم کرد.هر کدام از روش ها را معرفي کرده و نتايج مربوط به پياده سازي آن روش بر روي يک ربات مسير ياب را در بخش شش به نمايش در خواهيم آورد وآنگاه به بررسي نتايج و مقايسه سه روش با يکديگر خواهيم پرداخت .
٢ يادگيري تقويتي
روشهاي يادگيري تقويتي نشان مي دهد که چگونه يک عامل بر اساس تجربه اي که از تعامل با محيط بدست مي اورد سياست خود را تغيير مي دهد
٢-١ عامل و محيط
تصميم گيرنده وکسي را که ياد مي گيرد را عامل گويند و چيزي که عامل با آن تعامل ميکند را محيط مي ناميم در هر گام t عامل وضعيت جديدي را از محيط در يافت مي کند که s مجموعه وضعيت هاي ممکن براي محيط است و بر مبناي اين وضعيت عمل خود را انجام مي دهد که مجموعه عملهاي ممکني است که عامل مي تواند در وضغيت انجام دهد در گام بعد محيط يک پاداش عددي به او مي دهد و عامل خود را در وضعيت جديدي مي بيند سياست يا ستراتژِي عامل ∏ تابع احتمالي است که احتمال انتخاب شدن هر عمل را در هر وضعيت و با توجه به گام زماني مشخص مي کند روشهاي يادگيري تقويتي نشان ميدهد که چگونه يک عامل براساس تجربه اي که با تعامل با محيط بدست مي اورد سياست خود را عوض مي کند.
٢-٢ اهداف وپاداش
دقت شود بيشينه کردن پاداش در بلند مدت مد نظر است و با بيشينه کردن پاداش در هر مرحله اشتباه نشود.
نکته مهمي که بايد مد نظر قرار گيرد اين است که بايد پاداش را به گونه اي اختصاص دهيم که عامل با بيشينه کردن آن هدف ما را تامين سازد و و نبايد به او ياد داد که چگونه هدف را براورده سازد در واقع سيگنال پاداش کانال ارتباطي شما با عامل است که بوسيله ان به عامل مي گويد به چه وسيله اي به آن برسد نه اين که چگونه به هدف برسد حال به فرموله کردن مفهوم پاداش مي پردازيم .اگر ترتيب پاداش هايي که بعد از مرحله t ام ميگيرد. بصورت باشد وي بدنبال بيشينه کردن اميد رياضي کل خواهد بود که پاداش کل بصورت جمع پاداش هاي هر مرحله خواهد بود.

که در اينجا اميد رياضي کل پاداش ها مي باشد.
٢-٣ خاصيت مارکوف
همه مشخصه هاي ذکر شده بين عامل و محيط در يک مسئله يادگيري تقويتي مي تواند بطور کامل در ترم هاي فرايند تصميم گيري مارکوف وجود داشته باشد در حالت ايده ال , مطلوب براي ما اين است که يک سيگنال وضعيتي داشته باشيم که تمام اطلاعات مربوط به گذشته را در خودخلاصه کند اما همه اطلاعات گذشته بدرد ما نمي خورد بنابراين بايد اطلاعاتي را در خود جاي دهد که براي ما مفيد است .يک سيگنال وضعيتي که موفق شود همه اطلاعات مفيد را در خود جاي دهد داراي خاصيت مارکوف است .مثلا موقعيت کنوني مهره هاي شطرنج در صفحه داراي خاصيت مارکوف است بدليل اينکه تمام چيزي که براي اتمام نياز داريم را در اختيار دارد. (١) مسئله اي که بر روي آن کار مي کنيم يک ربات مسير ياب است که بر روي يک محيط گسسته به دنبال هدف خود مي گردد محيطي که ما در اين مسئله استفاده کرديم به صورت شکل زير است . اگر سيستم داراي خاصيت مارکوف باشد،پاسخ محيط در زمان T+1 تنها به وضعيت محيط و عمل انجام گرفته در زمان t بستگي دارد يعني ديناميک سيستم با معلوم بودن توزيع احتمال زير براي تمام مقادير ممکن مشخص خواهد بود.

حال با استفاده از فرمول بالا و با داشتن وضعيت و عمل در زمان t مي توان وضعيت محيط و پاداش انتظاري در زمان 1+t را پيش بيني کرد علاوه بر اين با استفاده بازگشتي از فرمول بالاو با داشتن وضعيت وعمل در زمان t مي توان تمام وضعيت و پادش هاي انتظاري در زمان هاي بعدي را نيز بدست آورد.
٢-٤ تابع ارزش و تابع ارزش بهينه :
تقريبا تمامي الگوريتم هاي يادگيري تقويتي بر پايه تخمين تابع ارزش وضعيت بنا نهاده شده است . بطور نادقيق مي توان ارزش وضعيت را معياري ار خوب بودن ان وضعيت در نظر گرفت ارزش وضعيت را مي توان اين گونه توضيح داد که اميد رياضي پاداش کلي است که عامل باشروع از وضعيت و پيش گرفتن سياست ∏ بدست مي اورد بديهي است تابع ارزش با توجه به يک سياست خاص تعيين مي شود

نشان دهنده اميد رياضي است در صورتي که از سياست ∏ پيروي شود.
معادله زير رابطه بين ارزش وضعيت s و ارزش حالات وقوع يافته بلافاصله بعد از آن را بيان مي کند


شکل ٢-١:مسير به همراه موانع
با توجه به شکل در مي يابيم که ما داراي ٨١ وضعيت هستيم در هر وضعيت مي توانيم يکي از ٤ عمل بالا، پايين ، چپ يا راست را انتخاب کنيم در اين مسئله بايد ربات طوري حرکت کند که بتواند بدون برخورد به موانع خود را به موقعيت هدف برساند.
يکي ديگر از مولفه هاي يادگيري تقويتي تعيين سياست است .
در حالت کلي سياست يک نگاشتي است از وضعيت ها به اعمال .و متعاقبا هر سياست يک تابع مقدار دارد که کيفيت رفتار عامل را مشخص مي کند
٣ يادگيري تکرار ارزش
VI يک روال تکراري است که ارزش هر حالت را با استفاده از ارزش حالت هاي همسايه محاسبه ميکند و اين کار انقدر ادامه مي يابد تا زمانيکه ارزش يک وضعيت در دو تکرار از يک مقدار آستانه کمتر شود بعبارت ديگر داريم :

که در اينجا ،همان مقدار آستانه مي باشد.و مقدار ارزش وضعيت در گام t و مقدار ارزش وضعيت در گام ١+t مي باشد. توجه داشته باشيد هر چه مقدار کوچکتر باشد دقت الگوريتم بيشتر است . با توجه به ماتريس ارزشي که براي وضعيت ها داريم ميتوانيم سياست متناظر با اين ماتريس را پيدا کنيم :

در اينجا سياست بهينه است زمانيکه ارزش حالتهاي ما به همگرايي رسيده باشد.و احتمال حالت گذر از وضعيت i به وضعيت j با انجام عمل a است .
شبه کد الگوريتم Value iteration بصورت زير ميباشد:

جدول ٣-١: شبه کد براي الگوريتم Value iteration
٤ يادگيري کيو
يادگيري q ،يک تابع ارزش وضعيت -عمل را بر اساس تجربه با محيط ياد ميگيرد، که بصورت تابع کيو شناخته مي شود.يادگيري کيو ،حالت گسترش يافته الگوريتم Value iteration است که براي مسائلي که دچار عدم قطعيت نيز هستند بکار مي رود. در يادگيري کيو بجاي نگاشت از وضعيت ها به مقادير وضعيت ها نگاشتي از زوج وضعيت -عمل به مقاديري که مقدار کيو ناميده مي

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید