بخشی از مقاله

خلاصه

استخراج اطلاعات وب یعنی فرآیند استخراج اطلاعات مورد نیاز کاربر از وبسایتها. در استخراج دادهها از اسناد وب به منظور تغذیه فرآیندهای خودکار، از استخراج کنندههای اطلاعات وب استفاده میشود. اسناد وب حاوی اطلاعاتی در فرمت ساختارنیافته است که بازیابی چنین اطلاعاتی بسیار سخت میباشد، لذا به منظور بازیابی و استخراج اطلاعات وب، کاوش استفاده از وب روش مناسبی است. هدف این پژوهش بررسی شیوههای طبقهبندی کاربران اینترنتی براساس الگوهای کشف شده از ورود و خروج کاربران به وب است. به همین منظور روشی را بررسی کردهایم که در آن با استخراج الگوی فایل لاگ وبسایتها، بتوان کاربران یک وبسایت را طبقه بندی کرد.

.1 مقدمه

از سال 1950 به بعد که رایانه در تحلیل و ذخیره سازی دادهها به کار رفت، حجم اطلاعات ذخیره شده در آن با گذشت زمان بیشتر شده و رو به فزونی است. بسیاری از پایگاههای داده چنان گسترش یافتهاند که شامل چند صد میلیون یا میلیارد رکورد ثبت شده هستند و امکان تحلیل و استخراج اطلاعات با روشهای معمول از این پایگاه دادهها - داده انبارها - مستلزم داشتن دانش و ابزارهای توانمندتر است

در حال حاضر، دادههای بسیار بزرگ از همه جا از طریق شبکه جهانی وب منتقل شدهاند. در نتیجه، سیستمهای استخراج اطلاعات بوجود آمده و تحقیقات زیادی به منظور بکارگیری دادهها برروی آنها صورت گرفته است

داده کاوی مهمترین فناوری برای بهره برداری مؤثر، صحیح و سریع از دادههای حجیم بوده و اهمیت آن رو به فزونی است. در این خصوص دادهکاوی به عنوان ابزاری توانمند نه تنها دسترسی به اطلاعات را تسهیل میسازد بلکه باعث به دست آوردن اطلاعات مفید و قابل اعتمادی از دل این داده-انبارها که تاکنون نهفته بوده، میشود. دادهکاوی یعنی گامهای تجزیه و تحلیل کشف دانش در پایگاهداده که یک تکنولوژی جدید و قدرتمند است که به سرعت در حال رشد میباشد

توسعه گسترده تار جهان گستر - وب - کاربران را برای استفاده از آن دچار پیچیدگی میکند. به منظور افزایش کارایی وبسایتها، طراحی وبسایت و فعالیتهای وب سرور باید در راستای منافع کاربران تغییر کند. وبکاوی نوعی تکنیک دادهکاوی برای استخراج دانش از دادههای وب، از جمله اسناد وب، ابرلینک2 بین اسناد، ورود و خروج کاربر3 در وبسایتها و غیره است

روشهای وبکاوی بر اساس آن که چه نوع دادهای را مورد کاوش قرار میدهند، به سه دسته تقسیم میشوند.

·    فعالیت4 وب، از ورود و خروج مربوط به سرور و ردیابی فعالیت مرورگر،

·    نمودار5 وب، از لینکها بین صفحات،

·    محتوای6 وب، اطلاعات موجود در صفحات وب و درون اسناد

اغلب تحقیقات صورت گرفته در زمینه دادهکاوی وب بر اساس تحلیل محتوای اسناد وب و یا ساختار گراف ارتباط اسناد وب بوده است. ما در این مقاله قصد داریم تا به طور ویژه به بررسی چگونگی کاوش استفاده از وب بپردازیم.

-2 پیشینه تحقیق

-1-2 پیشینه داخلی

.1 جوکار و اسفندیاری - 1395 - ، در مقالهای با عنوان »وبکاوی و تکنیکهای کاوش استفاده از وب« به بررسی مروری مفاهیم وبکاوی و روشهای کاوش استفاده از وب پرداختند. همچنین کاربردهای مختلف کاوش استفاده از وب را نیز مورد بررسی قرار دادند.

.2 برادران و همکاران - 1386 - ، در مقالهای با عنوان »کاوش استفاده از وب با استفاده از کلونی مورچهها« روشی مبتنی بر کلونی مورچهها پیشنهاد کردند که از اطلاعات چگونگی استفاده کاربران از وب به منظور تشخیص شباهت صفحات وب استفاده میکند. در روش پیشنهادی که بر اساس رفتار کلونی مورچهها عمل میکند، به هر کاربر یک مورچه تخصیص داده میشود. این مورچه با دنبال کردن مسیر کاربر سعی در یادگیری صفحات مشابه دارد.

-2-2 پیشینه خارجی

.1 داهارماراجان و دوریران گاسوامی - 2016 - ، در مقالهای با عنوان »کاوش استفاده از وب: بهبود الگوی پیمایشی کاربر با استفاده از الگوریتم «FP-GROWTH هدف اصلی کاوش استفاده از وب را درک رفتار کاربران وبسایت از طریق فرآیند دادهکاوی دادههای دسترسی به وب بیان کردند. در این مقاله از الگوریتم FP-GROWTH به منظور دستیابی به الگوهای دسترسی مکرر از دادههای ورود به سیستم وب7 و ارایه اطلاعات ارزشمند در مورد علایق کاربران استفاده کردند.

.2 آدنیی و همکاران - 2016 - ، در مقالهای با عنوان »کاوش خودکار استفاده از وب و سیستم توصیه با استفاده از روش طبقهبندی اُمینk همسایه نزدیک « - KNN - به منظور ارایه اطلاعات مربوط به فرد و بدون نیاز به درخواست صریح آن، براساس رفتار کاربر فعلی از طریق دادههای جریان کلیک بر روی RSS وبسایت کاوش خودکار استفاده از وب و سیستم توصیه را ارایه کردند. در این پژوهش با استفاده از روش طبقهبندی KNN به صورت آنلاین و بلادرنگ دادههای حاصل از جریان کلیک کاربران را شناسایی و آن را با گروهی خاص تطبیق دهد. نتایج حاصل از این پژوهش نشان میدهد که طبقهبندی اُمینk همسایه نزدیک شفاف، پایدار، دقیق، ساده در درک، دارای ویژگیهای مطلوب و پیادهسازی آسان است.

3.    پاتل و سینگ - 2013 - ، در مقالهای با عنوان »طبقهبندی الگو بر مبنای کاوش استفاده از وب با استفاده از تکنیک شبکه عصبی« به منظور طبقهبندی الگوی کاربران برای دادههای بلادرنگ و پیچیده، رویکرد جدیدی را با استفاده از طبقه-بندی نایو بیز اصلاح شده و با روش یادگیری نظارت شده به کار گرفتند. هدف این مقاله طبقهبندی دادههای بلادرنگ براساس زمان و دقت است.

4.    کومار و روکمانی - 2010 - ، مقالهای با عنوان »پیادهسازی کاوش استفاده از وب با استفاده از الگوریتم APRIORI و الگوریتم « FP-GROWTH ارایه کردند که هدف آن تمرکز بر کاربرد وبکاوی به ویژه تمرکز بر کشف الگوها از وب-سایتها از روی سرور فایلها و همچنین مقایسه استفاده از حافظه و زمان در این دو الگوریتم بوده است.

5.    راجان و سائو - 2014 - ، در مقالهای با عنوان »طراحی ظریف به منظور بهبود طراحی یک وبسایت تجارت الکترونیک با استفاده از کاوش استفاده از وب و خوشهبندی «k-means الگوریتمی ارایه کردهاند که ترکیبی از روش قوانین انجمنی و خوشهبندی است که با جمعآوری اقلام خریداری شده توسط مشتری یا اطلاعات مکرر وبسایت و حداقل پشتیبان، مجموعه دادههای متوالی را به عنوان خروجی نشان میدهد.

-3 دادهکاوی چیست؟

دادهکاوی یعنی استخراج اطلاعات پیشگویانه پنهان و دادههای ناشناخته، الگوها، روابط و دانش از طریق کاوش در مجموعه دادههای بزرگ است که یافتن و تشخیص آنها با استفاده از روشهای آماری سنتی دشوار است.[6] همچنین میتوان بیان نمود که واژههای »دادهکاوی« و »کشف دانش در پایگاه داده «، اغلب به صورت مترادف یکدیگر مورد استفاده قرار می-گیرند. کشف دانش در پایگاه داده، فرآیند شناسایی درست، ساده و نهاتاًی مفید الگوها و مدلهای قابل فهم در دادهها است

-4 وبکاوی چیست؟

وبکاوی، افراد را قادر میسازد تا صفحات وب، اسناد متنی، فایلهای چندرسانهای، تصاویر بی حرکت 8 و سایر انواع منابع را از وب پیدا کنند. با توجه به شکل - 1 - وبکاوی به طور گسترده به سه دسته تقسیم میشود: کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب.    

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید