بخشی از مقاله

*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***

رهیابی رباط پرنده درون محیط ساختمان ناشناخته به روش بهینه سازی یادگیری کیو

در این مقاله، رهیابی ربابت پرنده درون محیط ساختمان در فضای سه بعدی که اندازه و مکان بعضی موانع مشخص نیستند و اطراف دیگر موانع و هدف نیز می‌تواند متحرک باشد مورد بررسی قرار می‌گیرد. در این مقاله بهینه‌سازی یادیگری کیو در مرحله اکتشاف به منظور مسیریابی بهینه توسط ربات پرنده را پیشنهاد می‌دهیم. روش فوق با شبیه‌ساز وباتس پیاده‌سازی شده و سپس توسط نرم‌افزار متلب روش بهینه‌سازی شده یادگیری کیو با توجه به تأثیر موقعیت هدف برای عملکردهای کنترل در جهت‌گیری و اختلاف زاویه‌ای مورد بررسی قرار می‌گیرد. در این مقاله تندبادهای کوچک از باد شبیه‌سازی شده در دنیای مجازی به عنوان اختلال اصلی برای سیستم ناوبری ربات پرنده مورد استفاده قرار گرفت و برتری روش فوق را نشان می‌دهد.

١- مقدمه راهيابي ربات يک مسئله اساسي در بحث هدايت ربات ها به شمار ميرود، لذا در سال هاي اخير توجه زيادي به اين مسئله شده است .رهيابي ربات به اين معنا است که ربات مسيري را بدون برخورد با مانع و به صورت کوتاهترين مسير و کمترين زمان به سمت هدف بپيمايد. روش هاي مختلفي از جمله روش ميدان پتانسيل مصنوعي، الگوريتم ژنتيک ، بهينه سازي ازدحام ذرات ، روش ديد گراف ، منطق فازي و شبکه عصبي سعي در حل اين مسئله داشته اند. در واقع کليه روش هاي فوق با توجه به ويژگي هاي محيط به دودسته تقسيم ميشوند. دسته اول رهيابي محلي بر پايه محيط شناخته شده ، و ديگري رهيابي محلي بر پايه درک سنسورها از محيط ناشناخته ميباشد. روش سراسري براي بدست آوردن يک مسير بهينه ي سراسري بدون برخورد با موانع استفاده ميکند. در اين روش ها بايد محيط به صورت کاملا دقيق مدل کرد. اما در واقعيت بخشي از محيط را به صورت کاملا دقيق مدل کرد. اما در واقعيت بخشي از محيط يا کل محيط ساختار نيافته است و براي ربات ناشناخته است و ربات با توجه به سنسور خود، تنها قادر به شناخت محدودي از محيط پيرامون خود است . در اين مقاله رهيابي ربات پرنده با استفاده از الگوريتم يادگيري کيو، درون ساختمان که ناشناخته ميباشد انجام گرفته است .

٢- مروري بر روش هاي گذشته
ربات هايي پرنده داخل ساختمان براي بسياري از برنامه هاي کاربردي در جهان واقعي به دليل ، قدرت بالا قدرتمند در سنجش از راه دور مانور ميدهند. ربات هاي کوچک پرنده را مي - توان در محيط هايي مانند جستجو انسان هاي آسيب ديده در يک ساختمان مورد استفاده قرار داد. در انبارها و کارخانه ها هم براي نظارت بر مواد شيميايي و مواد راديواکتيو که بيش از حد براي تماس با انسان خطرناک است استفاده ميشود. اسوارمس ١ از ربات پرنده داخل ساختمان براي عملکرد موثر استفاده کرد که اين روش او نيز با توجه به افزونگي ربات هاي پرنده در محيط قوي ميباشد. که در روش اسوارمس ١ ربات ها کارهايشان را به صورت موازي با هم انجام ميدهند. فضاي هماهنگي بين ربات ها و کارها مهم ميباشد که بتوانند به صورت دسته جمعي به فعاليت بپردازند و مسيرهاي موردنظر براي انجام کارهايشان را طي کنند. اين الگوريتم هاي موازي به تازگي توسعه يافته اند و فرض را بر اين ميگيرند که اطلاعات مطلق يا نسبي موقعيت ربات ها بين کليه ربات ها در دسترس است . چنين الگوريتمي از رفتارهاي که موجب برخورد ربات ها با همديگر ميشوند جلوگيري ميکند که اين موضوع توسط هافمن ٢ و تاملين ٣ در سال ٢٠٠٨ بيان شد [٦]. روش استفاده از GPS که درسال ٢٠٠٨ توسط رندول ٤ ارائه گرديد، براي داخل ساختمان مورد استفاده قرار ميگيرد ضعيف ميباشد. موقعيتي که آنها ميدهند ممکن است غير قابل اعتماد باشد [٩].
به منظور حل مشکلات بايد سنجش از راه دور براي مسير ها و موانع انجام گيرد. پرواز ربات در داخل خانه هايي از قبيل ساختمان اداري بسيار چالش بر انگيز است ، موانعي از جمله ديوار ها و مبلمان و مردم و غيره در محيط وجود دارد بنابراين سنجش نزديکي به اين موانع ضروري ميباشد. عرض راهروها و درگاه هاي باريک درون ساختمان باعث محدوديت هايي ميشود. ساندراج ٥ و همکارانش در سال ٢٠٠٩ و گزانکا٦ و همکارانش در سال
٢٠٠٩ اين محدوديت را مورد بررسي قرار دادند. استقامت در پرواز کوتاه را در سال ٢٠٠٧ توسط ولنتي٧ و همکارانش مورد بررسي قرار گرفت [١٠,٤,١١]. با توجه به مشکل هايي که در يک ربات پرنده از قبيل سبکي وزن و دقت ربات وجود دارد سنسورهايي براي رديابي مسير را لوَپشين ٨ و همکاران در سال
٢٠١٠، کريچنر٩ و فروکاوا ١٠ در سال ٢٠٠٥ براي رسيدن به هدف و هماهنگي فضايي در هدايت پرواز ارائه دادند، آنها نتايج خوبي بدست آوردند اما براي برنامه هاي کاربردي در محيط هاي واقعي ناشناخته مناسب نميباشند [٨,٧].
برخي ديگر از پژوهشگران اسکنر ليزري استفاده کردند.
اطلاعات حرکت با استفاده از الگوريتم هاي ويژه رديابي توسط استليک ١١ و همکاران در سال ٢٠٠٩، گونرد١٢ همکارانش در سال ٢٠٠٨ استخراج کردند [١,٥]. بکراچ ١٣ در سال ٢٠٠٩ و ِبلاش ١٤ در سال ٢٠١٠ از نقشه و تصوير برداري همزمان از محل را ارائه دادند [٢,٣]. اين روش به دليل اينکه بايد براي هر ربات از داخل نقشه در هر لحظه اطلاعات را جهت مکان يابي استخراج کند روشي زمانبر است و داراي محاسبات سنگين مي - باشد و نياز به پردازنده سريع دارد.در واقع کليه روشهاي نامبرده در فضاي دوبعدي ارائه شده اند که اين روش ها داراي محاسبات سنگين ميباشند و در محيط هاي سرپوشيده به دليل برخورد با موانع مناسب نميباشند.
٣- سينماتيک و مدل ربات
در اين مقاله براي ارزيابي الگوريتم يادگيري کيو، يک مدل بالن هوايي به اندازه کوچک براي پياده سازي سيستم کنترل ناوبري خودگران انتخاب شد. بعد فيزيکي از پوشش بدنه اين بالن هوايي کوچک ١.٤ متر طول و ٠.٧٥ متر قطر دارد.گوندولاي بالن هوايي در زير بدنه اصلي پوشش آن جايگزين شده است . در هر دو طرف گوندولا دو ملخ هواپيما اصلي به عنوان نيروي محرکه ي اصلي نصب شده است . اين دو ملخ هواپيما با ٢ موتور DC که براي آزمايشات پروازهاي داخلي مناسب هستند، رانده ميشوند و زواياي چرخش موقعيت نصب اين دو ملخ هواپيما در امتداد يک محور مشترک بين آنها ثابت است ، که ميتواند با چرخش به کنترل محوري نهايي هدايت شود، هر دو يک سرور اصلي در گوندولا ميباشند. سرور همراه با پروانه ي اصلي DC به نوبه ي خود قادر به توليد نيروس محرکه در اطراف محور افقي است .
ساختار اصلي بدنه اين نوع بالن هوايي کوچک در شکل (١) نشان
داده شده است .

شکل ١: بالن هوايي کوچک و موتورهاي سروو و DC نصب شده بر روي گوندولاي بالن هوايي[١٣]
در اين مقاله همه اطلاعات بالن هوايي در سيستم مرجع هماهنگ کننده محيط ، از جمله موقعيت بالن هوايي، جهت گيري و غيره داده شده است . در حاليکه اطلاعات حالت بالن هوايي خودگردان ، مانند سرعت بعدي و شتاپ زاويه اي ، بر اساس سيستم مرجع هماهنگ کننده ي پردازنده ، که مختصات بدنه ناميده ميشود اندازگيزي ميشود.در هر مرحله ناوبري ، لازم است جهت بالن هوايي دائما حرکت رو به جلو به سمت موقعيت هدف را تنطيم کرد.همانطور که در شکل (١) چارچوپ محيط و مختصات بدنه ي بالن هوايي نشان داده شده است . ميتوان در شکل (٢) ديد که с زاويه بين موقعيت فعلي بالن هوايي و جهت مثبت محور X در چارچوپ محيط است و α زاويه بين موقعيت هدف و جهت مثبت محور X در هماهنگ کننده اي که اشاره شد، است .

شکل ٢: مختصات بدنه بالون هوايي [١٣]

در اين مقاله اختلاف زاويه بين موقعيت فعلي بـالن هـوايي و موقعيت هدف ، که در شکل (٢) نشان داده شـده اسـت ، زاويه اي است که بالن هوايي در مختصات چارچوپ محـيط نيـاز دارد تا کاهش دهد. در حاليکه اختلاف زاويه اي مورد اسـتفاده در چارچوپ بدنه ي بالن هوايي در جهت موقعيت هدف است که بـه مختصات بدنه اشاره ميکند. اين مـيتوانـد از Bبـا تـابع انتقـال هماهنگ کننده بين چارچوپ محيط و چارچوپ بدنه تبديل شود.

٤- الگوريتم يادگيري کيو[١٢]
در اين مقاله يکي از روشهاي يادگيري تقويتي ، روش يادگيري کيو مورد استفاده قرار ميگيرد. در اين روش حالتهاي ممکن را در هر گام زماني براي ربات مشخص کرده و عملهاي ممکن متناسب با هر حالت را نيز معين ميکنيم . سپس براي هر عمل ربات ، در هر حالت يک پاداش و تنبه در نظر ميگيريم و بر اساس رابطه (١) به هر زوج مرتب (حالت ، عمل ) يک مقدار کيو اختصاص داده ميشود، ربات در مرحله يادگيري جدول کيوها را پر کرده و در مرحله عمل از اين جدول استفاده مي کند، يعني در گذر از هر حالت به حالت ديگر، عملي را انتخاب ميکند که بيشترين مقدار کيو را داشته باشد.
Q(state,action)=R(state,action)+ max[
Q(next state,all action)]
(1)
در اين رابطه R مقدار پاداش در هر حالت به ازاي يک عمل خاص در گام زماني فعلي است .
٤-١- اکتشاف در مقابل بهره برداري در يادگيري کيو در اين مقاله اکتشاف يک وظيفه يادگيري است ، که توسط روش يادگيري کيو يک مرحله اجرا شده است . پس از هر تکرار، يک تابع ارزش بيشينه ، جفت هاي حالت -عمل با حداکثر ارزش کيو در جدول ارزش کيو را انتخاب خواهد کرد، تا ارزش را بروزرساني کند. اين روش يادگيري همچنين توانايي کشف جفت امکانپذير حالت -عمل بعدي براي ملاقات و به روز رساني فراهم مي کند. در اينجا شکل (٣) ، نمودار پشتيبان به وضوح رابطه ي بين جفت حالت -عمل فعلي و جفت قبلي در فرايند يادگيري را
نشان مي دهد.



شکل ٣: نمودار پشتيبان يادگيري کيو يک مرحله
در اين مقاله ما احتياج به معادله اي داريم که هنگامي که پاداش مثبت است ارزش کيو را افزايش دهد، ارزش را کاهش دهد زماني که پاداش منفي است و ارزش را در وضع ثابت نگه دارد زماني که مقادير ارزش کيو بهينه است . معادله مورد استفاده براي اين کار به رابطه (٢) به شرح زير است :

در رابطه (٢) ديده ميشود، که مقدار ارزش کيو فعلي با مقدار ارزش کيو قبلي مقايسه خواهد شد و توسط يک مرحله يادگيري در همان زمان بروزرساني ميشود. بروزرساني جدول ارزش کيو در هر رويداد مثال خوبي از وظيفه اکتشاف است .
البته ، اين بروزرساني رويداد تنها در يک جفت حالت -عمل در هر زمان رخ مي دهد و بازدهي بهره برداري در اينجا در جدول ناوبري بالن هوايي فقط ١.١٨٧ است (تعداد کل جفت هاي حالت -عمل ١٨٧است ). جفت هاي حالت -عمل بيشتري که ملاقات شد اند، تجربه قبلي قادر به تأثيرگذاري بر نتايج يادگيري بعدي است . بهره برداري در يادگيري کيو يک مرحله توسط اجراي طولاني مدت پياده سازي يادگيري کيو تحقق يافت .
گاهي اوقات با انتخاب يک عمل تصادفي، ما ميتوانيم کنترل بالن هوايي را مجبور به کشف جهات ديگر کنيم که هنوز آزموده نشده است . ما به بالون هوايي يک ثابت پويش بين ٠ و ١ اختصاص ميدهيم . اگر ثابت پويش ٠.١ باشد، سپس ١٠ درصد از زمان را ميتواند تلاش کند تا عمل تصادفي که بتواند مقدار ارزش کيو را در جدول حدکثر کند انتخاب نمايد.
در اين مقاله تکرار مکرر يادگيري تقويتي از طريق تمام حالت ها براي بالن در نهايت منجر به حالت هدف ميشود. با توجه به جدول ارزش کيو، رويه بهينه ميتواند از درون اين محيط به دست آيد.

٤-٢- تأثير پارامترهاي مختلف در يادگيري کيو
در اين مقاله نرخ يادگيري، معمولا بين ٠ و ١ قرار گرفته است ، در اصل در اندازه ٠.٣٥ در اين شبيه سازي راه اندازي شد.
در اين نرخ ، عملکرد کنترل بين اکتشاف و بهره برداري خوب پيش بيني ميشود.
در اين مقاله عامل تخفيف γ، در يادگيري کيو براي تعديل نرخ تنظيمات در بروزرساني مقادير ارزش کيو به منظور توليد يک تأثير معقول از زوج هاي حالت -عمل قبلي که در رابطه (٣) به تصوير کشيده شده است . در اين عمليات از الگوريتم يادگيري کيو جديد، مقادير ارزش کيو به عنوان بروزرسانيهاي زوج هاي حالت - عمل قبلي خود از طريق عبارت زير شکل يافته اند:

عامل تخفيف γ در اين بخش ، مقدار حداکثر ارزش کيو که بر اعمال زير تاثير خواهد گذاشت ، را کنترل مي کند. به همين دليل ، يک انتخاب صحيح براي ارزش γ مي تواند اثر مهمي بر نرخ تغيير مقادير ارزش کيو در جدول وابسته و در نتيجه بر عملکرد کلي برنامه يادگيري داشته باشد. اگر مقدار عامل تخفيف به اندازه کافي بالا باشد تا تاثير قابل توجهي بر مقادير ارزش کيو در تکرارهاي يادگيري پيدرپي داشته باشد (که γ معمولا بين ٠ و ١ است )، سپس بهينه سازي سياست توسط مقادير بالاي ارزش کيو تحت فشار قرار خواهد گرفت به عنوان مقادير بزرگ افزايش به طرز چشمگيري برهمگرايي و در نتيجه احتياج به آموزش گسترده ، تأثير خواهد گذاشت . به عنوان يک نتيجه ، براي تأثير سريع تر يادگيري کيو، پايين تر، عوامل تخفيف اوليه به طور کلي معرفي م شود.
٥- راه اندازي شبيه سازي وباتس
در اين مقاله شبيه ساز وباتس دو پنجره براي نشان دادن نتايج شبيه سازي فراهم ميکند. اولين پنجره ، پنجره دنياي مجازي است ، که از طريق آن حرکات پرواز بالن خودگردان را مي توان به راحتي مشاهده کرد. به اين دليل است که

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید