بخشی از مقاله

چکیده

با افزایش رو به رشد نمایی دادهها و حجم بزرگی از آنها که به وجود آمده است، روز به روز نیاز به پردازش و تحلیل این دادههای کلان بیشتر میشود. طبقهبندی دادهها، شکلی از تحلیل دادهها تلقی میشود، که در آن مدلهایی جهت توصیف کلاسهای مهمی از دادهها استخراج میشود.

یکی از اهداف اصلی در طبقهبندی دادهها رسیدن به صحت بالاست و یکی از متدها برای رسیدن به این هدف استفاده از یادگیری تلفیقی است. جنگل تصادفی به عنوان درخت تصمیم تلفیقی شناخته میشود و کارایی خوبی هم در طبقهبندی دادههای کلان دارد.

طبقهبندی مجموعه دادههای نامتعادل چالشی را برای اکثر تکنیکهای یادگیری استاندارد به وجود آورده است و الگوریتم جنگل تصادفی هم تحت تاثیر منفی توزیع کلاس نامتعادل قرار گرفته است. در این کار، از متد SplitBal که روشی جدید در ایجاد تعادل دادههای نامتعادل میباشد، برای متعادلسازی دادههای کلان نامتعادل استفاده گردیده است و در نهایت کار طبقهبندی این نوع دادهها را با کمک الگوریتم جنگل تصادفی انجام دادهایم.

نتایج این کار در مقابل کارهای انجام شده از جمله نمونهزدایی تصادفی و نمونهافزایی تصادفی و روش حساس به هزینه نتایجی بهتر در زمان اجرا و کارایی طبقهبندی را در بعضی از نگاشتکنندهها نشان می-دهد که مزیت این روش در مقابل دیگر روشها نداشتن سربار و از دست دادن دادههای مفید است. در این کار از روش ارزیابی میانگین هندسی برای مقایسه روش پیشنهادی نسبت به روشهای دیگر استفاده شده است

مقدمه

با رشد روز افزون دادهها و نیاز به بهرهبرداری و تحلیل از این دادهها، بکارگیری زیرساختهای کلان دادهها از اهمیت ویژهای برخوردار شده است. کلان داده1 یک مفهوم انتزاعی است که اشاره به چالشها و مزایای گرفته شده از جمع-آوری و پردازش مقدار زیادی از دادهها را دارد . - Marx, 2013 - در دو سال اخیر حجم دادههای تولید شده شامل نود درصد دادههای تولید شده در کل تاریخ است . - Wu et al , 2014 - کلان داده - Chen et al, 2014 - جدا از حجم2 داده ویژگیهای دیگری نیز دارد و تعاریف مختلفی درباره آن بیان گردیده است که علاوه بر ویژگی حجم داده به ویژگیهای دیگری از جمله سرعت3 و تنوع4 داده و غیره هم اشاره شده است.

طبقهبندی دادهها - Han et al, 2011 - یکی از پرکاربردترین شاخههای علم تشخیص الگو و دادهکاوی است. حوزه وسیع کاربرد آنرا میتوان به راحتی در زندگی روزمره مشاهده کرد. در حوزه بیومتریک، کاربردهایی از قبیل تشخیص چهره، تشخیص کف دست، تشخیص حرکات لب و غیره. در حوزه پزشکی، تشخیص بیماریها، تشخیص نارساییها با طبقهبندی تصاویر و یا در حوزه ژنتیک، تشخیصهایی که بر روی ساختار پروتئینها و یا توالی ژنها صورت میگیرد. در حوزه نوشتار، طبقهبندی متون، تشخیص دستخط، تشخیص کاراکتر و غیره. کاربردهای عمومی از قبیل تشخیص پلاک خودرو، تشخیص خرابی جوشکاری و غیرهاصولاٌ. هر جا تشخیص الگویی وجود دارد این تشخیص همراه با طبقهبندی خواهد بود.

یکی از اهداف اصلی در طراحی الگوریتمهای یادگیری ماشین، رسیدن به صحت5 بالا است و یکی از متدها برای رسیدن به این هدف استفاده از یادگیری تلفیقی6 است . - Han et al, 2011 - مطالعه متدهایی برای ساختن تلفیق طبقهبندهای خوب یکی از زمینههای فعال و رایج تحقیقاتی شده است.

اگر طبقهبندهای استفاده شده در روش تلفیقی همگی از نوع درخت تصمیم باشند، بدین ترتیب این مجموعه تشکیل یک جنگل را خواهند داد . - Rokach, 2016 - - Han et al, 2011 - هر یک از درختان تصمیم با استفاده از یک انتخاب تصادفی صفات خاصه موجود در هر گره جهت تعیین انشعاب ساخته میشوند. به عبارت دیگر هر درخت براساس مقادیر یک بردار تصادفی ساخته میشوند.

برای طبقهبندی نیز هر درخت رای خود را صادر میکند و نتیجه نهایی با رای اکثریت تعیین میشود. دادههای نامتعادل برای طبقهبندی اشکالی ایجاد مینمایند که این اشکال زمانی به وجود میآید که تفاوت قابل ملاحظهای بین تعداد نمونههای متعلق به کلاسهای مختلف وجود دارد، داشتن یک کلاس با تعداد نمونههای7 زیاد - اکثریت8 یا کلاس منفی - و کلاس با تعداد نمونههای کم - اقلیت1 یا کلاس مثبت - سبب این کار می-شود. در سالهای اخیر این مشکل به وفور در کاربردهای مختلف از جمله در تشخیص پزشکی، بررسی نقص نرمافزاری، مالی و غیره دیده میشود.

روشهای مختلفی وجود دارد که با مجموعه دادههای نامتعادل میتوانند بررسی و کار شوند که در بعضی منابع آنها را به دو دسته - Satyasree and Murthy, 2013 - روشهای خارجی2 و روشهای داخلی3 تقسیمبندی نمودهاند.

و دربعضی منابع مانند تقسیمبندی - Díez-Pastor et al, 2015 - که به 4 دسته تقسیم کرده است که به صورت کلی هر کدام میتواند در زیرقسمتی از تقسیمبندی بالا قرار بگیرد:

-1 روشهای در سطح الگوریتم:4 که طبقهبند را مجبور میکند که به سمت آستانه تصمیم برای صحت یک طبقهبند کلاس اقلیت همگرا شود.

-2 روشهای حساس به هزینه:  روشهای مختلفی برای در نظر گرفتن هزینهها در نظر گرفته شده است. تنظیم دقیق هزینه به صورت دقیق مشکل است ولی در هر صورت به ویژگیهای مجموعه داده بستگی دارد.

-3 روشهای تعدیل نمونه: برای حل مشکل دادههای نامتعادل در این روش طبقهبندهای موجود تغییری نمیکند بلکه یک روش پیشپردازش محسوب میشود که میتوان روشهای نمونهافزایی7 و نمونهزدایی8 را در این دسته قرار داد.

-4 تلفیق طبقهبندها: دو روش اصلی در این قسمت قرار میگیرند که میتوان به Bagging و Boosting اشاره نمود. اگرچه روشهای تلفیقی به صورت مکرر برای مجموعهدادههای نامتعادل استفاده شدهاند ولی به تنهایی قادر نیستند که با مجموعه دادههای نامتعادل کار کنند و باید از روشهای ترکیبی استفاده نمود. به عنوان مثال ترکیب روشهای تلفیقی با تعدیل نمونه که میتوان به - Chawla et al, 2003 - SMOTEBoost و - Galar et al, 2013 - EUSBoost اشاره نمود.

اگرچه برای افزایش صحت طبقهبندها، از الگوریتمهای تلفیقی میتوان استفاده نمود و نتایج خوبی را نیز نشان میدهد - Han et al, 2011 - - Zhang and Ma, 2012 - - Liu, 2014 - ، ولی این قانون برای کلاسهای متعادل حکم فرما است و برای کلاس نامتعادل، صحت را به علت نادیده گرفتن کلاس اقلیت، نادرست بیان میکند - del Río et al, . - 2014 از اینرو باید متدهایی برای متعادلسازی کلاسهای نامتعادل استفاده شود تا مشکلاتی که برای کلاس نامتعادل به وجود میآورد را از بین ببرد. از طرفی دیگر، ما با چالش کلان دادهها مواجه هستیم - Chen et al, 2014 - که برای طبقهبندی این دادهها در روشهای ترتیبی کارایی پایینی دارد

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید