مقاله داده کاوی اسناد XML با استفاده از استخراج قواعد انجمنی

ورد قابل ویرایش

18 صفحه

قیمت مقاله 000 199 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

داده کاوی اسناد XML با استفاده از استخراج قواعد انجمنی
چکیده – امروزه XML زبان انتخاب شده برای نمایش، ذخیرهسازی و مبادله در بسیاری از قلمروها همچون تکنولوژی، سرویسهای اقتصادی، سیستمهای پزشکی، هوانوردی و دفاع است. در نتیجه بسیاری از گروههای تحقیقاتی برای یافتن یک تکنولوژی جهت ذخیرهسازی، کشف دانش و آنالیز اسناد مرتبط با XML ، تحقیقاتی را آغازکرده اند. استخراج قواعد انجمنی یکی از تکنیکهای به کار گرفته شده در دادهکاوی به منظور کشف دانش به ویژه در دادههای رابطهای میباشد. در سالهای اخیر به منظور دادهکاوی اسناد XML از این تکنیک و روشهای ایجاد شده بر پایه آن استفاده شده است. همچنین در تحقیقات و کارهای فراوانی کوشیده شده است که روشهای استخراج قواعد انجمنی روی اسناد XML کاراتر و سریعتر گردند. در این مقاله بر آن هستیم تا به بررسی روش استخراج قواعد انجمنی از اسناد XML و دو الگوریتم متداول این روش بپردازیم.

کلید واژه- اسناد XML ، الگوریتم Apriori ، الگوریتم FP-Growth ، درخت FP-Tree ، Association Rules Mining ، XQuery

-1 مقدمه
با گسترش روز افزون اینترنت، میزان استفاده از مستندات XML بویژه در مبادله داده بسیار زیاد شده و تعداد مستندات XML موجود در اینترنت روز به روز در حال افزایش می باشد. زبان XML به زبان عصر اینترنت تبدیل شده و اکثر مستندات موجود در اینترنت با فرمت XML یا فرمتهای مشابه مثل زبان HTML هستند. امروزه زبان XML در طیف وسیعی از موارد شامل بازنمایی، ذخیرهسازی و انتقال اطلاعات بکار گرفته شده است، بنابراین با توجه به حجم و تعداد بسیار زیاد اینگونه مستندات وجود روشهایی جهت دادهکاوی از مستندات XML بسیار ضروری و مورد نیاز است. XML زبانی تودرتو و به سادگی دارای قابلیت تعریف ساختار خود بدون از دست دادن انعطاف پذیری میباشد.
دادهکاوی در اواخر دهه 80 میلادی نمایان شده و در دهه 90 بهبود و گسترش یافته است. این بهبود و گسترش بخصوص در زمینه تبدیل مقدار زیاد داده به دانشِ مفید بوده و انتظار میرود در آینده نیز با سرعت ادامه پیدا کند. با این وجود در مقایسه با کارایی موفق کاوش دادههای خوش ساختار همچون پایگاههای داده رابطهای و شیگرا، کاوش در دادههای نیمهساختاریافته همچون XML هنوز در مراحل اولیه خود میباشد و به دلیل ویژگیهای ذاتی آن در دو زمینه ساختار و معنا با مشکلات فراوانی مواجه است. اولین بار روش استخراج قواعد انجمنی در سال 1993 میلادی معرفی گردید.[1] از آن زمان کارهای زیادی در شاخههای مختلف این زمینه انجام گرفته است، اما استفاده از این روش بر روی دادهها و اسناد مرتبط به XML برای اولین بار در سال 2001 میلادی معرفی شد.[2] لازم به ذکر است که همین ایده اما با پیادهسازی توسط XQuery در سال 2003 میلادی ارائه شد.[3]
ساختار این مقاله به ترتیب به صورت زیر است:
در بخش دوم به تعریف مسئله استخراج قواعد انجمنی، تعریف قانون انجمنی پرداخته و پس از معرفی دو الگوریتم Apriori و FP-Growth به بررسی عملکرد آنها خواهیم پرداخت. در بخش سوم نیز دو الگوریتم را مقایسه میکنیم. در بخش چهارم که قسمت پایانی این مقاله است به نتیجهگیری و کارهای آینده XML کاوی با استفاده از استخراج قواعد انجمنی خواهیم پرداخت.

-2 مسئله استخراج قواعد انجمنی
اســتخراج قواعــد انجمنــی یــا بــه اختصــار ARM یکــی از مهمترین و تحقیقاتیترین روشهای دادهکاوی است. هدف از این روش یافتن همبستگیهای مـورد علاقـه و مـورد نیـاز، الگوهـای پرتکرار و یـافتن سـاختارهای غیرضـروری در میـان آیـتمهـا در تراکنشهای پایگاه داده یا سـاختارهای دیگـر داده اسـت. قواعـد انجمنی، قوانینی هستند که بـه رابطـههـایی همچـون وابسـتگی قطعی میان اشیاء مانند اتفاقهای همزمان اشـاره مـیکنـد. ایـن وابستگی بین آیتمها، در میان مجموعه تراکنشهـایی اسـت کـه شامل مجموعهای از این آیتمها میشود.[1]

به عبـارتی دیگـر اسـتخراج قواعـد انجمنـی یـافتن قـوانین همبستگی است که کمینه پشتیبانی و اطمینان از پـیش تعریـف شده را در پایگاه داده مورد نظر تامینکنند. این مسـئله معمـولاً به دو زیر مسئله تجزیـه مـیشـود. مسـئله اول یـافتن مجموعـه آیتمهایی است که اتفـاق افتـادن آنهـا بـیش از آسـتانه از پـیش تعریف شده در پایگاه داده اسـت کـه ایـن مجموعـه آیـتمهـا را پرتکرار یا مجموعه آیتمهای بزرگ مینامنـد. مسـئله دوم ایجـاد یک سری قوانین و رابطهها از مجموعه آیتمهای بزرگ بـه دسـت آمده با در نظر گرفتن کمینه اطمینان آنها میباشد. در ادامـه بـه بررسی بیشتر این دو مسئله میپردازیم.[4]
اولین مرحله در استخراج قواعد انجمنی، تشخیص مجموعـه آیتمهای پرتکرار است. مجموعههایی از آیـتمهـا کـه معمـولا بـا یکدیگر رخ میدهند و برای جستجوی بیشـتر در مراحـل بعـدی استفاده میشوند. به دلیل مقیـاس نمـایی فضـای جسـتجو، ایـن مرحله بـدون شـک نیازمنـد محاسـباتی قدرتمنـد و اسـتفاده از الگوریتمها و ساختار داده کـارا مـیباشـد. ایـن عامـلهـا هنگـام استفاده از دادههای بیدرنگ بسیار مهم میباشد. در این قسـمت مفاهیم و تعریفهای پایه استخراج قواعد انجمنی را بیان میکنیم و به بررسی الگوریتمهای Apriori و FP-Growth میپردازیم. در اینجا به این نکتـه بایـد توجـه شـود کـه بـرای توصـیف داده، از تراکنش و آیتم استفاده میشود.

-1-2 تعریف یک قانون انجمنی
همانگونه که اشاره شد مسئله اسـتخراج قواعـد انجمنـی در سال 1993 مـیلادی بـرای دادههـا در جـدول رابطـهای معرفـی گردید. تعریف رسمی این مسئله به شکل زیر است: [5]
فرض کنید I = {i 1, i2, . . ., im} مجموعـه آیـتمهـا هسـتند. همچنین D مجموعه تراکنشها میباشد و هر تراکنش T شـامل مجموعهای از آیتمها است بـه طـوری کـه T ⊆ I مـیباشـد. هـر تراکنش دارای مشخصه منحصـر بـه فـردی اسـت کـه مشخصـه تراکنش نامیـده شـده و بـه صـورت TID نشـان داده مـیشـود. همچنین گفته میشود تراکنش T شـامل A اسـت اگـر A ⊆ T A ) زیرمجموعهای از بعضی آیتمها در .( I
یک قانون انجمنی به صورت A ⇒ B نمایش داده مـیشـود بطوریکه B ⊆ I , A ⊆ I وA ∩ B =Ø میباشد. مجموعـه A را پیشین یا بدنه قانون و مجموعـه B را برآینـد ، نتیجـه و یـا سـر قانون مینامند. چنین قانونی به عنوان قوانین مورد علاقه خواهند بود اگر دارای چندین ویژگـی باشـد. دو ویژگـی اساسـی کـه بـه صورت فراوان در اسـتخراج قواعـد انجمنـی مـورد اسـتفاده قـرار میگیرد "پشتیبانی" و "اطمینان" قانون میباشد.
پشتیبانی بـرای قـانون A ⇒ B کـه بـه صـورت s(A ⇒ B) نمایش داده میشود، نسبت تعداد تراکنشهایی که شـامل تمـام آیتمهای مجموعه A U B به تعداد تمام تراکنشهای D میباشد. بنابراین:

دو تابع δ بر مجموعه آیتم A ، تعداد تراکنشهایی در D است که شامل تمام آیتمهای مجموعه A میباشد و به صورت δ (A) نمایش داده شده و با عنوان تعداد تکرار A نیز نامیده میشود.
همچنین اطمینان قانون A ⇒ B که به صورت c(A ⇒ B) نمایش داده میشود، نسبت تعداد پشتیبانی مجموعه A U B بر تعداد تراکنشهایی که تنها شامل مجموعه پیشین A هستند میباشد. بنابراین:

از آنجا که تمامی قوانین ممکن به دست آمده مفید نیسـتند و تعداد این قوانین ممکن مـیتوانـد بسـیار زیـاد باشـد بنـابراین وظیفــه اســتخراج قواعــد انجمنــی ایجــاد آن دســته از قــوانین از مجموعه دادههای D است که دارای مقدار پشتیبانی و اطمینـان بیشتر یا مساوی با کمینه پشیبانی و کمینه اطمینان تعریف شده باشد.[4]
یک مجموعه از آیتمها را itemset مینامند. یک itemset که دارای k آیتم است به صورت k-itemset نمایش داده میشود. یک k-itemset پرتکرار یا بزرگ نامیده میشود اگر:

یک 1-itemset پرتکرار نیز آیتم پرتکرار نامیده میشود چـرا که تنها دارای یک آیتم میباشد. همچنین قانون A ⇒ B را یـک "قانون نیرومند" میگویند اگر و فقـط اگـر A U B در مجموعـه آیتمهای بزرگ باشد و دارای اطمینان بزرگتر یا مسـاوی کمینـه اطمینان باشد.[4]
-2-2 نمونه قانون انجمنی در جدول تراکنشها
فرض کنید smin = 0.4 و cmin = 0.6 میباشد. میتوان مشاهده کرد که قانون { i2, i4 } ⇒ { i3 } دارای پشتیبانی 0.4 و اطمینان 0.66 میباشد. بنابراین این قانون به عنوان قانون انجمنی معتبر تامین کننده کمینه پشتیبانی و کمینه اطمینان میباشد.[5]

جدول :1 نمونه جدول تراکنشها [5]

-3-2 مراحل استخراج قواعد انجمنی
در واقــع وظیفــه اســتخراج قواعــد انجمنــی از مقــادیر زیــاد مجموعه داده، در فرآیند دو مرحلهای زیر خلاصه میشود: [6]
.1کشف تمامی مجموعـه آیـتمهـای پرتکـرار یـا بـزرگ در مجموعه تراکنشهای D ، کـه تـامین کننـده کمینـه پشـتیبانی هســتند. بــرای حــل ایــن زیرمســئله از الگــوریتمهــایی همچــون الگوریتم Apriori استفاده میشود.
.2استفاده از مجموعه آیتمهـای بـزرگ بـه دسـت آمـده در مرحله قبل برای ایجاد قوانین نیرومند که معمـولا الگـوریتم ایـن قسمت آسان میباشد. میتوان آن را به این صورت بیان کرد کـه برای هر مجموعه آیتم بزرگ l1، تمام مجموعه آیتمهای بـزرگ l2 یافتــه مــیشــود بــه طــوری کــه دارای دو شــرط l2 ⊆ l1 و support(l1 U l2) / support(l2) ≥ minconf باشند برای چنـین مجموعه آیتم بزرگ دارای خروجی قانون بصـورت l2 ⇒ (l1 - l2) خواهیم بود.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/44856

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله داده کاوی اسناد XML با استفاده از استخراج قواعد انجمنی

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله خواندن داده ها به فرمت XML و نمایش آنها بوسیله DataList

دانلود مقاله قواعد حل تعارض قوانین در اسناد تجاری خاص

دانلود مقاله خوشه بندی موضوعی اسناد XML در موتورهای جستجو

دانلود فایل پاورپوینت استخراج روغن سبوس برنج با روش استخراج با سیّال تحت فشار ( PFE ) و بهینه‌کردن شرایط استخراج به وسیله طراحی فاکتوریال

دانلود فایل پاورپوینت استخراج روغن سبوس برنج با روش استخراج با سیّال تحت فشار ( PFE ) و بهینه‌کردن شرایط استخراج به وسیله طراحی فاکتوریال

دانلود فایل پاورپوینت پایگاه داده ویژه XML

دانلود فایل پاورپوینت تفاوت وب کاوی و داده کاوی

دانلود فایل پاورپوینت تفاوت داده کاوی و وب کاوی

مقاله داده کاوی در رایانش ابری : انتخاب سرویس SAAS به عنوان بهترین سرویس رایانش ابری برای کاهش هزینه های داده کاوی

مقاله بررسی کاربرد فنون داده کاوی مکانی در تحلیل و استخراج الگوهای تصادفات جاده ای مبتنی بر سیستم اطلاعات مکانی ( GIS )

مقاله شخصی سازی وب با استفاده از قوانین انجمنی توسعه یافته

مقاله ترکیب خدمات وب با استفاده از کاوش قوانین انجمنی

مقاله داده کاوی و بررسی قوانین انجمنی در زمینه کنترل موجودی انبار و برنامه ریزی منسجم جهت افزایش سهم بازار

مقاله داده کاوی از طریق سیستم‌های خبره جهت پیش‌بینی و تشخیص سرطان سینه و مقایسه آن با دیگر روش‌های داده کاوی

مقاله حفظ حریم خصوصی قوانین انجمنی در پایگاه دادههای برون سپاری شده با استفاده از توابع تولید اعداد شبه تصادفی و الگوریتم ژنتیک

مقاله داده کاوی در بستر ابر : معرفی معماری بر اساس تکنولوژی RAID جهت جلوگیری حملات بر مبنای داده کاوی بر سرویس ابری

مقاله سیستم تشخیص نفوذ برپایه قوانین انجمنی فازی بهبود یافته

مقاله شناسایی و ارزیابی کلید واژه های اثرگذار در حوزه مدیریت داده های عظیم با استفاده از الگوریتم های قواعد وابستگی و متن کاوی

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله داده کاوی اسناد XML با استفاده از استخراج قواعد انجمنی

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله خواندن داده ها به فرمت XML و نمایش آنها بوسیله DataList

دانلود مقاله قواعد حل تعارض قوانین در اسناد تجاری خاص

دانلود مقاله خوشه بندی موضوعی اسناد XML در موتورهای جستجو

دانلود فایل پاورپوینت استخراج روغن سبوس برنج با روش استخراج با سیّال تحت فشار ( PFE ) و بهینه‌کردن شرایط استخراج به وسیله طراحی فاکتوریال

دانلود فایل پاورپوینت استخراج روغن سبوس برنج با روش استخراج با سیّال تحت فشار ( PFE ) و بهینه‌کردن شرایط استخراج به وسیله طراحی فاکتوریال

دانلود فایل پاورپوینت پایگاه داده ویژه XML

دانلود فایل پاورپوینت تفاوت وب کاوی و داده کاوی

دانلود فایل پاورپوینت تفاوت داده کاوی و وب کاوی

مقاله داده کاوی در رایانش ابری : انتخاب سرویس SAAS به عنوان بهترین سرویس رایانش ابری برای کاهش هزینه های داده کاوی

مقاله بررسی کاربرد فنون داده کاوی مکانی در تحلیل و استخراج الگوهای تصادفات جاده ای مبتنی بر سیستم اطلاعات مکانی ( GIS )

مقاله شخصی سازی وب با استفاده از قوانین انجمنی توسعه یافته

مقاله ترکیب خدمات وب با استفاده از کاوش قوانین انجمنی

مقاله داده کاوی و بررسی قوانین انجمنی در زمینه کنترل موجودی انبار و برنامه ریزی منسجم جهت افزایش سهم بازار

مقاله داده کاوی از طریق سیستم‌های خبره جهت پیش‌بینی و تشخیص سرطان سینه و مقایسه آن با دیگر روش‌های داده کاوی

مقاله حفظ حریم خصوصی قوانین انجمنی در پایگاه دادههای برون سپاری شده با استفاده از توابع تولید اعداد شبه تصادفی و الگوریتم ژنتیک

مقاله داده کاوی در بستر ابر : معرفی معماری بر اساس تکنولوژی RAID جهت جلوگیری حملات بر مبنای داده کاوی بر سرویس ابری

مقاله سیستم تشخیص نفوذ برپایه قوانین انجمنی فازی بهبود یافته

مقاله شناسایی و ارزیابی کلید واژه های اثرگذار در حوزه مدیریت داده های عظیم با استفاده از الگوریتم های قواعد وابستگی و متن کاوی

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران