بخشی از مقاله
چکیده:
دو روش کلی برای حل مسایل کنترل بهینه تصادفی، استفاده از معادله همیلتون-ژاکوبی-بلمن و اصل بیشینه - کمینه - تصادفی میباشند. روشهای مذکور برای حل مسایل کنترل بهینه تصادفی جنبههای توانمندی دارند؛ اما هر دو روش بهطور غیر مستقیم و با واسطه تابع کنترل بهینه را بدست میآورند. در این مقاله روش دیگری براساس قضایای وجودی جواب ارایه میدهیم که بهطور موثر از کنترل قطعی استفاده میشود و با استفاده از حسابان تصادفی، از طریق مربع کامل کردن در جبر مقدماتی بدست میآید. روش ارایه شده به معرفی صریح یک کنترل بهینه از خانوادهای از کنترلهای مجاز و سازگار میپردازد؛ بدین منظور با استفاده از یک معادله ریکاتی بهره بازخورد بهینه را بدست آورده و با بکارگیری امید شرطی یک انتگرال تصادفی، یک پیشبینی مناسب از پاسخ سیستم بهینه برای آینده نویز ارایه میشود. در پایان مثالی ارایه و با روش شرح داده شده، پیادهسازی میشود.
-1 پیشگفتار
کنترل بهینه تصادفی یک زیرشاخه از نظریه کنترل محسوب میگردد که به بررسی عدم قطعیتها در مشاهدات و تاثیر آن بر کارآیی فرآیندهای مختلف و چگونگی برخورد با آن میپردازد. مفهوم کنترل تصادفی را میتوان به عنوان فرآیند تاثیرگذاری روی رفتار یک دستگاه دینامیکی، برای رسیدن به هدفی خاص در نظر گرفت؛ در حالیکه تکامل تدریجی این دستگاه دینامیکی با یک معادله دیفرانسیل تصادفی توصیف میشود. اگر هدف، بهینهسازی تابع عملکردی باشد که به کنترل ورودی دستگاه وابسته است، آنگاه مساله مورد نظر را کنترل بهینه تصادفی مینامیم.
متغیرهای وضعیت و کنترل در این مسایل میتواند گسسته یا پیوسته باشد. در حالت گسسته تابع هدف بیشینه یا کمینهسازی مجموع امید ریاضی تابعی از متغیرهای وضعیت و کنترل در طول دوره یا فقط در پایان دوره است. اما در حالت پیوسته، معادله هدایتگر سیستم از نوع معادلات دیفرانسیل تصادفی است و تابع هدف نیز از نوع بیشینه یا کمینهسازی مجموع امید ریاضی تحت عنوان تابع مطلوبیت است. این نظریه با دسته ای از سیستمهای دینامیکی سروکار دارد که تحت اغتشاشاتی در قالب فرآیندهای تصادفی قرار میگیرند.
نظریه کنترل بهینه تصادفی در دهه پنجاه همزمان با اصل بیشینه پونتریاگین گسترش یافت. امروزه در ارتباط با مسایل مالی نیز بهطور وسیعی، برای پیشگویی و تحلیل سیاستها مورد استفاده قرار میگیرد. برخی روشهای عددی برای این مسایل در [7] ارایه شده است. بهجز در تعداد محدودی از مسایل کنترل بهینه تصادفی، بسیاری از آنها یک راه حل صریح و مشخصی ندارند؛ دلیل این است که اغلب آنها وابسته به یک منبع نویزی هستند؛ زهرا شفیعی بازارنوی , دکتر علیرضا فخارزاده جهرمی و دکتر حمیدرضا ملکی/ روشی تحلیلی برای حل مسایل کنترل بهینه تصادفی سیتم تک آتش نشان از آنجاکه در عمل، اکثر سیستمها تحت نویزهای ناشناخته میباشند، نظریه کنترل بهینه تصادفی به عنوان ابزاری مهم در سیستمهای صنعتی و عملی کاربرد پیدا کرده است.
-2 مسایل کنترل بهینه خطی درجه دوم تصادفی
مسایل کنترل بهینه خطی درجه دوم تصادفی نوع خاصی از مسایل کنترل بهینه تصادفی هستند. در این حالت، سیستم تحت کنترل و کنترلکنندهای که سیگنال کنترل بهینه را تولید میکند، خطی فرض میشوند. در واقعیت چنین کنترلکننده هایی دارای شاخص عملکرد درجه دوم هستند. حسن استفاده از کنترل بهینه خطی تصادفی بهجای کنترل بهینه تصادفی، این است که بسیاری از سیستمها قبل از اضافه کردن کنترلکننده به آنها، خطی هستند.
همچنین هرگاه در یک سیستم برخی از متغیرهای ورودی غیرقطعی - تصادفی - باشند، در مدلسازی ریاضی، متغیر متناظر با آن یک متغیر تصادفی باشد؛ بنابراین مساله کنترل درجه دوم خطی تصادفی، یک مساله کنترل بهینه است که در آن معادله حالت سیستم خطی، تابع هزینه حداکثر از درجه دوم بوده و شامل ورودیهای اغتشاش تصادفی با شرایط اولیه تصادفی می باشد . [4] مطالعه مسایل کنترل بهینه تصادفی میتواند از حساب تغییرات، کنترل بهینه قطعی و مسایل متنوع کنترل تصادفی در آمار دنبال شود.
مساله کنترل LQR زمان گسسته، در اواخر 1950 و اوایل 1960 حل شده بود [5] و مدت زمان کوتاهی بعد از آن، مساله LQR برای سیستمهای زمان پیوسته نیز حل شد [ 6] جوابهای این دسته مسایل به جواب مساله مربوطه کنترل درجه دوم خطی قطعی نزدیک هستند و مبدا راهحل این مسایل به قرن 19 از کارهای لاگرانژ و دیگران برمیگردد .[5] کنترل بهینه برای مساله LQR زمان پیوسته، با کنترل بهینه مساله کنترل درجه دوم خطی قطعی، یکسان است. تنها تابع هزینه بهینه این مساله با هزینه بهینه مساله کنترل قطعی متفاوت است و انتگرال تابعی از زمان است.
-1-2 مدل مساله کنترل بهینه درجه دوم خطی تصادفی
مساله کنترل بهینه درجه دوم خطی تصادفی، یک مساله کنترل بهینه است که در آن معادله حالت سیستم خطی، تابع هزینه حداکثر از درجه دوم بوده و شامل ورودیهای اغتشاش تصادفی با شرایط اولیه تصادفی می باشد. معادله حالت سیستم خطی این مساله LQR تصادفی - معادله هدایتگر سیستم کنترلی - بهصورت زیر است: که در آن t، متغیر زمان است؛ X - t - ، بردار -nبعدی تغییرپذیر با زمان است که بردار حالت نامیده میشود؛ U - t - ، بردارm -بعدی است که نشانگر متغیر ورودی یا کنترل است؛ ، برداری ثابت، است؛ B , A و C ماتریسهای مستقل از زمان به ترتیب از مرتبه n × n ، n×m و n × p میباشند؛ [0,T] - - W - t - ,t یک فرآیند تصادفی مربع انتگرالپذیر -pبعدی با مسیرهای نمونهای پیوسته در یک فضای احتمال کامل - - بوده و 0<T ثابت است.
همچنین فرض کنیم - ℱ - t - ,t [0,T] - یک فیلتر روی - W - t - , t [0,T] - باشد. خانوادهای از کنترلهای قابلقبول و سازگار مینامیم هرگاه U و U یک فرآیند مقداری بوده که نسبت به [0,T] - - ℱ - t - ,t، بهطور تصاعدی اندازهپذیر باشد بقسمی که تقریبا مطمئن - - [0,T] - - U باشد. [4 ] بهبیان دقیقتر - [0, T] - } U . تابع هزینه یک مساله LQR تصادفی را میتوان چنین نمایش داد: جایی که در آن Q, R, M ماتریسهای متقارن و به ترتیب نیمه معین مثبت و معین مثبت و نیمه معین مثبت هستند.
-3 روش حل مساله کنترل بهینه درجه دوم تصادفی
هدف این بخش، ارایه شیوه حل برای یک مساله کنترل بهینه برای سیستم تصادفی خطی دارای فرآیند نویزی دلخواه مربع انتگرالپذیر، با مسیرهای نمونه پیوسته، همراه تابع هزینه درجه دوم است. نخستین شیوه اصلی حل برای مسایل در این حوزه، بهطور رسمی، برای مسایل LQG که مسایل تنظیم کننده درجه دوم تصادفی نیز نامیده میشوند [4]، ارایه شده است. دو روش کلی برای حل مسایل کنترل بهینه تصادفی، استفاده از معادله همیلتون-ژاکوبی-بلمن و اصل بیشینه - کمینه - تصادفی میباشند .[7] روشهای مذکور برای حل مسایل کنترل بهینه تصادفی جنبههای توانمندی دارند؛ اما هر دو روش بهطور غیر مستقیم و با واسطه تابع کنترل بهینه را بدست میآورند .
در این مقاله روش دیگری بر مبنای قضایای وجودی مرتبط با جواب را ارایه میدهیم که بهطور موثر از کنترل درجه دوم قطعی استفاده میشود و از طریق مربع کامل کردن در جبر مقدماتی بدست میآید .[2] با کامل کردن تابع هدف - عملکرد سیستم - به فرم یک مربع کامل، یک کنترل بهینه و متناظر آن مقدار بهینه تابع هدف به صورت مستقیم بدست میآید. بنابراین با استفاده از روش مربعات کامل، کنترل بازخورد بهینه خطی، حالت قطعی را بدست میآوریم و سپس از آن برای بدست آوردن کنترل بهینه درجه دوم خطی تصادفی استفاده میکنیم.