مقاله تشخیص داده‌های پرت با استفاده از بهبود عملکرد الگوریتم تشخیص داده‌های خاص با استفاده از برچسب مثبت

فایل pdf

11 صفحه

قیمت مقاله 000 139 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده

همواره یکی از مهم ترین دغدغه های دادهکاوان در اختیار داشتن دادههایی صحیح و عاری از خطاست. دادههایی که اشتباهات انسانیدر آن وجود نداشته و رکوردهای آن تماماً پر و حاوی داده هایی صحیح باشند. اما واضح است که چنین مجموعهی داده ای در سطح بسیار کوچک هم قابل دسترسی نخواهد بود، حال آنکه دادهکاوان معمولاً با مجموعه داده های عظیم کار خواهند کرد. در تمامی مطالعات وجود داده نامتعارف و دورافتاده از مسائل مشکل ساز در تجزیه وتحلیل نتایج هست. داده نامتعارف داده ای است که به قدری از سایر مشاهدات انحراف داشته باشد که این گمان را به وجود میآورد که با مکانیزم متفاوتی ایجاد شده است.

تکنیک های شناسایی داده نامتعارف را بر اساس داده برچسب دار میتوان به سه گروه تقسیم کرد. در تکنیکهای نظارتی شناسایی داده نامتعارف، داده آموزشی حاوی نمونه های برچسب دار برای هر دو دسته نرمال و نامتعارف است. در تکنیک های نیمه نظارتی، داده آموزشی فقط برای اندکی از نمونه ها دارای برچسب است. درحالی که در روش های غیر نظارتی، داده آموزشی برچسبداری موجود نیست. در بین تکنیک های شناسایی داده نامتعارف، تکنیک های غیر نظارتی و تکنیک های نیمه نظارتی با نمونه های نرمال برچسب دار برای آموزش، از عمومیت بیشتری برخوردارند.

در این پژوهش برای یافتن نقاط خاص و نامتعارف در سه مجموعه داده سرطان سینه، بازیکنان بسکتبال NBA و باغ وحش از ترکیب دو روش جهت یافتن داده های نامتعارف به صورت نیمه نظارتی و یافتن تشابه بین دادههای برچسب دار موجود و داده های بدون برچسب با استفاده از تابع زنگوله ای پس از پیشپردازشهای اولیه استفاده شده است. برای ارزیابی این روش پیشنهادی از معیارهای آخرین رتبه، میانه، میانگین و انحراف معیار استفادهشده است که با مقایسه نتایج این روش با الگوریتم پایه بهبود نتایج به صورت نسبی دیده شده است.

-1 مقدمه

در تجزیه وتحلیل داده های آماری ، اغلب با مقادیری که مشکوک یا تعجب آور به نظر می رسند، مواجه می شویم. چنین مقادیری ممکن است نقاط دورافتاده باشند که از اصطلاح "داده های نامتعارف" برای توصیف این مقادیر که بر اساس برخی از معیارهای آماری، مغایر با بقیه نمونه باشد استفاده می کنیم .[1] تا به حال تعاریف زیادی از داده های نامتعارف ارائه شده است ولی درمجموع می توان داده های نامتعارف را به صورت زیر تعریف کرد، »یک داده نامتعارف مشاهده ای است که به طور غیرعادی یا اتفاقی از وضعیت عمومی داده های تحت آزمایش و نسبت به قاعدهای که بر اساس آن تحلیل می شوند، انحراف داشته است.« معروف ترین تعریف دادههای نامتعارف مربوط به تعریف د.هاکینز در سال 1980 است وی داده های نامتعارف را مشاهدهای میداند که آنقدر با سایر مشاهدات تفاوت دارد که مشاهدهکننده داده را مشکوک به تولید مکانیزمی غیر از مکانیزم اصلی میکند.[2]

به طور ساده تر، داده نامتعارف مقداری است که نسبت به مجموع نمرات توزیع در حد افراط یا تفریط قرار داشته باشد. از نگاه آماری، داده های نرمال از یک یا چند مکانیزم عمده تولید میشوند، اما مکانیزم تولید داده نامتعارف با مکانیزم تولید این دادهها متفاوت است.[3] تشخیص و حذف دادههای نامتعارف از این رو حائز اهمیت است که این دادهها در صورت حذف نشدن در تمامی مراحل دادهکاوی حضورداشته و باعث نتایج نادرست وبعضاً غیرمنطقی خواهند شد. تشخیص دادههای نامتعارف به سه نوع با ناظر، نیمه ناظر و بدون ناظر تقسیم میشوند:

-1 روش با ناظر در نوع با ناظر یک موضوع مدل کردن تشخیص دادههای نامتعارف بهعنوان یک مسئلهی ردهبندی است. در اینجا نمونهها توسط کارشناسان بررسی میگردند تا برای آموزش و آزمایش مورداستفاده قرار گیرند. موضوع دیگر روشهای آموزش یک ردهبندی برای تشخیص مؤثر دادههای نامتعارف است. در اینجا یک روش مدل کردن دادههای معمولی و تشخیص دادههای نامنطبق بهعنوان دادههای نامتعارف است و روش دیگر مدل کردن دادههای نامتعارف و اعلام دادههای نامنطبق بهعنوان دادههای معمولی است.

-2 روش با نیمه ناظر در بسیاری از موارد تعداد دادههای برچسب خورده اندک است . این دادهها ممکن است دادههای معمولی، نامتعارف یا ترکیبی از هر دو مورد باشد. اگر دادههای معمولی در دسترس باشند از این داده ها و تقریبی از سایر دادهها بهعنوان مدل نرمال استفاده میگردد. اما اگر دادههای نامتعارف در دسترس باشندمعمولاً نمیتوانند کل دادههای نامتعارف را بهخوبی پوشش دهند. برای افزایش کیفیت تشخیص دادههای نامتعارفمعمولاً میتوان از مدلهای دادههای نرمال بدون ناظر استفاده کرد. از الگوریتم مهم این روش میتوان الگوریتم شبکه عصبی را نام برد4]و.[5

-3 روش بدون ناظر در این روش دادههای معمولی را به چند گروه متمایز تقسیم میکنیم. انتظار میرود دادههای نامتعارف با فاصله از هر یک از گروههای دادههای معمولی قرار گیرند. اما ضعفی که موجود است دادههای نامتعارف دستهجمعی است که همانطور که پیش از این ذکر شد ممکن است با فاصله از دادههای معمولی قرار نگرفته باشند. دادههای معمولیمعمولاً از الگوی خاصی تبعیت نمیکنند اما بالعکس دادههای نامتعارف دستهجمعی دارای شباهت زیادی در یک محدوده کوچک هستند. بسیاری از روشهای خوشهبندی با روشهای بدون ناظر قابل وفق شدن هستند. در این روشها ابتدا خوشهبندی انجامشده و سپس دادههایی که به هیچ خوشهای تعلق ندارند بهعنوان دادههای نامتعارف معرفی میگردند. این روشهامعمولاً با دو مشکل دستوپنجه نرم میکنند. مشکل اول تشخیص دادههای نامتعارف از دادههای نویزی است و مشکل دوم هزینهی زیاد تشخیص دادههای نامتعارف از زمان اولین خوشهبندی است6]،7،.[8

بزرگ ترین مشکل داده کاوان در سال های اخیر بحث پاکسازی دادهها بوده و دادههای نامتعارف همواره مشکل آفرین بوده اند. تشخیص داده های نامتعارف ساده تر از داده های نویزیبوده و معمولاً با درصد اطمینان بیشتری تشخیص داده میشوند. ایده های بسیاری درزمینههای دادههای نامتعارف مورداستفاده قرارگرفته اند و روش های تشخیص داده های نامتعارف را بیاغراق میتوان بیش از 100 روش نامید. اما با این همه باز هم نمیتوان ادعا کرد تمام این داده ها تشخیص و اصلاح شده اند. آنچه مسلم است با افزایش اطلاعات و بزرگ شدن مجموعه های داده نیازمند روش های دقیق تری برای تشخیص داده های نامتعارف هستیم، که در این مقاله به معرفی روش کار که با استفاده از ترکیب دو روش برای یافتن دادههای نامتعارف بهصورت نیمه نظارتی و یافتن تشابه بین دادههای برچسب دار موجود و دادههای بدون برچسب خواهیم پرداخت.

-2 پیشینه تحقیق

در این بخش به بررسی برخی از کارهای انجامشده در این حوزه پرداختهایم که بهصورت خلاصه در ادامه توضیح دادهشدهاند. در [9] با استفاده از روش مبتنی بر فاصله نمرات نامتعارف که بیشترین تضاد را در تنظیمات فراهم می کنند را تشخیص می دهد علاوه بر این به ما نشان می دهد که ابعاد بالا می توانند تأثیرات مختلف با تشخیص بازنگری مفهوم نزدیک ترین همسایگان معکوس درزمینه نظارت نشده داشته باشند. نویسندگان بینش چگونگی ظاهر شدن متناوب برخی از نقاط antihubs در لیست knn را نسبت به دیگر نقاط را ارائه و ارتباط بین antihubs و داده های نامتعارف را با استفاده از روش تشخیص بدون نظارت را توضیح میدهند. آنها روش Knn کلاسیک، روش مبتنی بر زاویه - - ABOD برای داده با ابعاد بالا، روش چگالی مبتنی بر برگ خرید داده نامتعارف - - LOF و تحت تأثیر داده نامتعارف - - INFLO و روش های مبتنی بر antihub در مجموعه داده دنیای واقعی و دادههای مصنوعی مورد ارزیابی قرار گرفتند و یک روش جدید برای شمارش نزدیکترین همسایگان معکوس را ارائه دادند. منبع [10] به موضوع داده نامتعارف سری زمانی برای پیش بینی مصرف گاز طبیعی در شرکتهای توزیع محلی توسط GasDay پرداخته است. GasDay از روش های آماری با توزیع معمولی نمونه ها مانند قاعده های

5- برای کمک به کارشناسان برای تشخیص نقاط نامتعارف در دادهها استفاده میکند. با این حال، آزمون آماری های Jarque-Bera باقی مانده مدل GasDay که به طورمعمول توزیع شده اند را نشان داده است. نویسندگان مقاله به توضیح تراکم مبتنی بر خوشه بندی فضایی نویز - - DBSCAN و چگونگی استفاده از آن ها برای شناسایی نقاط نامتعارف سری زمانی پرداخته و همچنین یک برنامه جدید برای الگوریتم DBSCAN که با تطبیق آن برای شناسایی نقاط نامتعارف در جریان گاز طبیعی GazDay معرفی کردهاند. عملکرد DBSCAN با روش های موجود GasDay مقایسه شده اند که نتایج نشان داده استفاده از این الگوریتم باعث بهبودی تشخیص نقاط نامتعارف بیشازحد در GasDay شده است.

در منبع [11] برای تشخیص نقاط نامتعارف با پیدا کردن خوشه های کوچک تولیدشده توسط الگوریتم خوشه بندی استفاده کرده است، در بیشتر الگوریتم ها نیاز است کاربر تعداد خوشه ها - - K را بداند زیرا در غیر این صورت پیچیدگی محاسباتی زیادی به وجود می آید ولی در این روش نیازی به مشخص کردن K نیست در عوض یک پارامتر آستانه تعریف می شود - - t که بر تعداد نتایج خوشه ها تأثیر می گذارد. نویسندگان با استفاده از QB با یک فاصله بالا آستانه شروع به کار می کند و بهصورت بازگشتی اعمال QB را در هریک از زیر خوشهها با آستانه کاهش می دهند. این روند تا زمانی که جریان خطی به خود خوشه اختصاص یابد ادامه می یابد، با مشاهده مسیر خوشه جریان خطی در درخت می تواند شکلی را که از دیگران متفاوت است را شناسایی کند. با هرس کردن بین 30% تا 40% تضمین جریان اتصال دادههای نامتعارف مصنوعی را توسط سیستم پیشنهادی را تضمین میکند.

خوشه kحالت تابه حال توجه زیادی برای دادههای قطعی دریافت کرده است، بخصوص برای انتخاب مراکز اولیه خوشه بسیار حساس است، بنابراین انتخاب مراکز خوشه اولیه مناسب یک گام مهم برای kحالت است. در مقاله [12] مقداردهی اولیه kحالت خوشه ازنظر تشخیص دادههای نامتعارف در نظر گرفتهشده است. در این مقاله از
دو الگوریتم مبتنی بر فاصله و مبتنی بر آنتروپی برای تشخیص داده های نامتعارف برای kحالت استفاده شده

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/72192

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله تشخیص داده‌های پرت با استفاده از بهبود عملکرد الگوریتم تشخیص داده‌های خاص با استفاده از برچسب مثبت

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله روش ترکیبی برای تشخیص لبه تصویر شعله و آتش با استفاده از منطق فازی و روش بهبود یافته الگوریتم تشخیص لبه

دانلود مقاله الگوریتم موازی برای مساله برچسب گذاری نقشه ها

مقاله شناسایی داده های پرت سیلاب با استفاده از روش تجزیه به مولفه اصلی

مقاله تاثیر ضریب سیلهوت و روش انتخاب ویژگی‌ها در طبقه‌بندی داده‌های بدون برچسب

مقاله تاثیر آموزش ریاضی با مدل مک کارتی بر هیجان مثبت کلاسی ، هیجان مثبت یادگیری ، هیجان مثبت امتحان هیجان های مثبت تحصیلی دانش آموزان دختر پایه هشتم

مقاله تشخیص داده های پرت مشروط به منظور تحلیل جریان های داده مبتنی بر توزیع پواسون در شبکه های بیسیم موردی

مقاله دسته بندی ماژول های نرم افزاری با روش ترکیبی حذف داده های پرت و ماشین بردار پشتیبان

مقاله جداسازی داده های بدون برچسب به کمک برنامه ریزی خطی

مقاله رگرسیون ریج فازی در حضور داده های پرت برای ضرایب و خروجی فازی

مقاله روشی جدید برای برچسب‌زدن داده‌های دارای توالی بر اساس ترکیب خبرگان

مقاله روش برچسب زنی بر اساس روش رای گیری وزنی جهت بررسی کیفیت و دقت با ارائه الگوریتم پیشنهادی

مقاله رابطه نرخ رشد درآمد و کارایی سرمایه‌گذاری با در نظرگیری داده‌های پرت ( مطالعه موردی : شرکت‌های پذیرفته شده در بورس اوراق بهادار تهران )

مقاله روشی جدید جهت تشخیص اختلالات کبدی با استفاده از حذف داده های پرت و همجوشی طبقه بندی کننده ها

مقاله رفتار سازمانی مثبت گرا ؛ جنبشی در پرتو روانشناسی مثبت گرا در سازمان و مدیریت

مقاله سیستم پیشنهاددهنده برچسب معنایی در سیستم های برچسب زنی اجتماعی

مقاله شناسایی داده های پرت سیلاب با استفاده از روش تجزیه به مولفه اصلی

مقاله شناسایی بدافزارها با استفاده از الگوریتم ژنتیک و الگوریتم تجزیه ماتریس مثبت

مقاله شناسایی داده‌های پرت با استفاده از الگوریتم‌های هوشمند بر‌پایه نظریه گراف

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله تشخیص داده‌های پرت با استفاده از بهبود عملکرد الگوریتم تشخیص داده‌های خاص با استفاده از برچسب مثبت

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله روش ترکیبی برای تشخیص لبه تصویر شعله و آتش با استفاده از منطق فازی و روش بهبود یافته الگوریتم تشخیص لبه

دانلود مقاله الگوریتم موازی برای مساله برچسب گذاری نقشه ها

مقاله شناسایی داده های پرت سیلاب با استفاده از روش تجزیه به مولفه اصلی

مقاله تاثیر ضریب سیلهوت و روش انتخاب ویژگی‌ها در طبقه‌بندی داده‌های بدون برچسب

مقاله تاثیر آموزش ریاضی با مدل مک کارتی بر هیجان مثبت کلاسی ، هیجان مثبت یادگیری ، هیجان مثبت امتحان هیجان های مثبت تحصیلی دانش آموزان دختر پایه هشتم

مقاله تشخیص داده های پرت مشروط به منظور تحلیل جریان های داده مبتنی بر توزیع پواسون در شبکه های بیسیم موردی

مقاله دسته بندی ماژول های نرم افزاری با روش ترکیبی حذف داده های پرت و ماشین بردار پشتیبان

مقاله جداسازی داده های بدون برچسب به کمک برنامه ریزی خطی

مقاله رگرسیون ریج فازی در حضور داده های پرت برای ضرایب و خروجی فازی

مقاله روشی جدید برای برچسب‌زدن داده‌های دارای توالی بر اساس ترکیب خبرگان

مقاله روش برچسب زنی بر اساس روش رای گیری وزنی جهت بررسی کیفیت و دقت با ارائه الگوریتم پیشنهادی

مقاله رابطه نرخ رشد درآمد و کارایی سرمایه‌گذاری با در نظرگیری داده‌های پرت ( مطالعه موردی : شرکت‌های پذیرفته شده در بورس اوراق بهادار تهران )

مقاله روشی جدید جهت تشخیص اختلالات کبدی با استفاده از حذف داده های پرت و همجوشی طبقه بندی کننده ها

مقاله رفتار سازمانی مثبت گرا ؛ جنبشی در پرتو روانشناسی مثبت گرا در سازمان و مدیریت

مقاله سیستم پیشنهاددهنده برچسب معنایی در سیستم های برچسب زنی اجتماعی

مقاله شناسایی داده های پرت سیلاب با استفاده از روش تجزیه به مولفه اصلی

مقاله شناسایی بدافزارها با استفاده از الگوریتم ژنتیک و الگوریتم تجزیه ماتریس مثبت

مقاله شناسایی داده‌های پرت با استفاده از الگوریتم‌های هوشمند بر‌پایه نظریه گراف

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران