بخشی از مقاله
چکیده
خوشهبندی به عنوان یکی از روشهای کارآمد در یادگیری بدون ناظر است و یکی از روشهای اصلی تشخیص الگوست.یک خوشه مجموعهایست از نمونهها که شبیه به یکدیگر و بیشباهت از نمونه دیگر خوشههاست. روش خوشهبندی C میانگین فازی - FCM - یکی از روشهای متداول خوشهبندی است و از درجه عضویت فازی برای خوشهبندی دادهها استفاده میکند؛ ولی همیشه درجه عضویت برای همه دادهها به درستی صورت نمیگیرد و باعث وجود مینیمم های محلی میشود. بنابراین، برای یافتن مراکز خوشه بهینه و جلوگیری از مشکل بهینه-سازی محلی در تحلیل خوشهای دادههای جهتدار روشهای مختلفی با الگوریتم FCM و روشهای ترکیبی مختلف پیشنهاد شدند.
در روش FCM4DD از تفاوت زاویهای به عنوان اندازهگیری شباهت استفاده میکند و همچنین میتوان برای دادههای N بعدی به عنوان دادههای مدور نیز استفاده شود. نتایج مقایسه با مجموعه داده جهت باد شش ماهه اول سالهای 1951 الی 2014 میلادی کلانشهر تبریز میباشد که از مرکز هواشناسی ایران اخذ گردیده است ارزیابی شده است. با قراردادن تحلیل خوشهای جهت باد در کنار سایر یافتهها مانند سرعت باد و ... اطلاعات ارزشمندی در زمینههای هواشناسی به دست خواهد آمد. مهمترین چالش این روشها چگونگی انتخاب مرکز خوشه اولیه در مجموعه دادهها با ویژگیهای زیاد است. در تحقیقات آینده میتوان از ترکیب FCM با الگوریتم ازدحام ذرات و روشهای خوشهبندی پویا استفاده نمود.
.1 مقدمه
در علومی مثل هواشناسی، زیستشناسی و زمینشناسی دادههایی وجود دارند که ماهیت غیرخطی و یا بعبارتی دیگر نااقلیدسی دارند. شاخه جدید آمار دایرهای به بررسی و مطالعه پدیدههایی میپردازد که بصورت زاویه و جهت میباشند. یکی از سادهترین نوع متغیر که مقادیرش در فضای غیراقلیدسی قرار دارد، متغیر جهتدار یا دایرهای میباشد. این نامگذاری بدین دلیل است که این مشاهدات دارای متغیر دور یا جهت خاصی در صفحه میباشد و بدلیل داشتن جهت یا دور میتوانند با یک تبدیل مناسب بر روی دایره واحد قرارگیرند. مشاهداتی که از این نوع متغیرها ناشی میشوند. در علومی مانند زیست، جغرافیا، زمینشناسی و علوماجتماعی فراوان دیده میشوند.
این مشاهدات عموماً نشاندهنده جهت، دور یا چرخش زمان در یک بازه مشخص میباشند. بعنوان مثال زاویه جهت وزش باد یک متغیر دایرهای است زیرا میتوان با درنظر گرفتن جهت عقربههای ساعت هر جهت جغرافیایی را به عنوان یک زاویه بر روی دایرهای به شعاع واحد در نظر گرفت. بدلیل ماهیت فضای نااقلیدسی میتوان تصور کرد که خصوصیات و ویژگیهای متغیر دایرهای و خطی تفاوتهای ویژهای دارند. یکی از خصوصیاتی که متغیرهای جهتدار یا دایرهای دارند این است که ابتدا و انتهای برد اندازهگیری آنها بر همدیگر منطبق میباشند.
مثلاً زوایای 5 شرقی و 365 شرقی، وقتی بر روی دایره واحد رسم شوند، بر همدیگر منطبق خواهند شد - زاویه شرقی بدین معنی است که مقدار از شرق زاویه دارد - . وجود چنین مشخصههایی در متغیر دایرهای موجب میشود که محاسبه معیارهای آماری به کمک روش مرسوم آمار غیرخطی به نظر برسد.[1] میانگین سه جهت 10و 15 و 350 زاویه 125 شرقی جغرافیا است، که واقع در جهت شمالغربی است.
در حالیکه در آمار خطی غیرخطی انتظار داریم معیار مرکزی جایی در بین مشاهدات باشد. واضح است که در این مثال میانگین حسابی این حقیقت را نشان نمیدهد. حال اگر 350 را با -10 شرقی که معادل آن است عوض کنیم، میانگین حاصل برابر 5 شرق خواهد شد که منطقیتر میباشد. عدم کارائی معیارهای مرسوم دیگر آمار خطی در ارائه تصویر مناسبی از شاخصهای دادههای دایرهای را میتوان با این مثال و یا مثالهای دیگر مورد مطالعه قرار داد.[2]
دادههای جهتدار معمولاً در بسیاری از زمینههای علمی که در آن مشاهدات به عنوان جهت و یا زاویه نسبی به یک سیستم با یک جهتگیری ثابت ثبت میشوند؛ به وجود میآیند. انواع مختلف دادههای مدور ناشی از تبدیل دادههای زمان دورهای به اندازهگیری زاویه میباشند.[3] بررسی موردی این پژوهش جهت باد میباشد. جهت باد را از سمتی که میوزد معمولاً با چهار جهت اصلی و یا با درجه آزیموت گزارش میشود.
برای مثال بادی که از جنوب میوزد باد 180 درجه و بادی که از شرق میوزد باد 90 درجه نامیده میشود و یامثلاً باد شمال از شمال به جنوب میوزد.[4] برای اندازهگیری جهت و سرعت باد از چند نوع جهتنما و سرعتسنج یا انمومتر استفاده میکنند که از جمله آنها سرعتسنج رابینسون است؛ این دستگاه از چهار نیمکره توخالی که روی یک بازو نصب شده تشکیل شده است.[2] از آنجا که قدرت باد رابطه مستقیمی با توان سوم سرعت باد دارد و جهت باد بیانگر جهت فرسایش میباشد، دانستن سرعت و جهت باد به صورت ساعتی به منظور پیشبینی، کنترل فرسایش بادی و آلودگی هوا ضروری است.[4]
در این مقاله سعی شده تحلیل خوشهای دادههای جهتدار باد بررسی شود. برای خوشهبندی دادههای جهتدار نیز همانند سایر دادهها رویکردهای مختلفی همچون 1EM، 2 FCMو ... پیشنهاد شده است. که هر یک قابلیتهای خاص خود را دارند. در این مقاله از الگوریتم 3 FCM4DDاستفاده شده است این رویکرد در سال 2016 پیشنهاد گردید. در همین راستا پس از مروری بر کارهای پیشین، روش پیشنهادی و یافتههای تحقیق ارائه و نهایتاً به جمعبندی مطالب پرداخت شده است.
.2 مروری بر کارهای پیشین
دادههای جهتدار همانند سایر دادههایی که انسان در زندگی روزمره خود با آنها سروکار دارد؛ اطلاعات ارزشمندی پیرامون محیط اطراف به ما میدهد. با تکیه بر تحلیل این دادهها میتوان برخی از رویدادهای طبیعی را که با روشهای آماری معمول قابل تحلیل نیست؛ مورد بررسی قرار داد. یکی از روشهای مطرح در تحلیل دادههای جهتدار، تحلیل خوشهای است. با استفاده از تحلیل خوشهای دادههای جهتدار میتواند با رویکرد یادگیری ماشین مدیران و تصمیمگیران را درباره برخی از رویدادهای زمینشناسی، زیستشناسی، جغرافیا و ... یاری کرد. روشهای زیادی برای خوشهبندی توسط پژوهشگران معرفی شده است. اما الگوریتم خوشهبندی فازی یکی از روشهای دقیق برای خوشهبندی دادهها میباشد. در این مقاله سعی شده است با تکیه بر این الگوریتم و بهبود آن روش جدیدی برای خوشهبندی دادههای جهتدار ارائه گردد. این رویکرد در ادامه این بخش توضیح داده شده است.
.2-1 الگوریتم خوشهبندی FCM
رویکرد الگوریتم FCM پیدا کردن ماتریس عضویت بهینه - U - و ماتریس مرکز خوشه - V - است و تلاش برای مینیمم کردن تابع هدف انجام میشود، نتایج تابع هدف از رابطه اول قابل محاسبه است. شرایط رابطه دوم باید برقرار باشد. برای ساده کردن فرمول فاصله بین نمونه kام از مرکز خوشه iام رابطه سوم قابل نمایش است.