بخشی از مقاله

چکیده

از آنجا که حجم اطلاعات بر روی وب روز به روز در حال افزایش است سازماندهی این اطلاعات به منظور دسترسی سریع کاربران به محتوای مورد نظر یک نیاز ضروری میباشد. با توجه به رشد سریع وب، فراهم کردن روشی خودکار برای تقسیمبندی و طبقهبندی صفحات وب یک نیاز ضروری میباشد. در این مقاله چندین روش خوشهبندی صفحات وب مورد بررسی قرار گرفته است.

این روشها شامل خوشهبندی اسناد براساس ترکیب تگهای HTML، روش یادگیری ماشین K نزدیکترین همسایه، روش خوشهبندی بر اساس الگوریتم K-Means و خوشهبندی بر اساس پیوندهای خروجی است. سپس با استفاده از تمامی این الگوریتمها، دستهبندی صفحات وب مطابق با گروهبندیهای از پیش تعیین شده انجام شده و پس از قرارگیری صفحات در گروهها و دستههای مربوط به خود، میزان درستی کار هر کدام از این الگوریتمها را از طریق روشهای ارزیابی خوشهبندی سنجیده شده و با سایر الگوریتمها مقایسه شده و درصد موفقیت هر یک را در گروههای مختلف محاسبه کرده و در نهایت به معرفی موفقترین گروه در این آزمایش پرداخته خواهد شد. این طبقهبندی بوسیله 100 صفحه وب متعلق به 4 دسته آموزشی، پزشکی، خبری، ورزشی است.

-1 مقدمه

با رشد سریع جهان گستردهی وب، نیاز فزایندهای به فعالیت های گسترده در جهت کمک به کاربران صفحات وب برای طبقه-بندی و دستهبندی این صفحات وجود دارد. شواهد نشان میدهد که طبقهبندی نقش مهمی را در آینده سیستمهای جستجو بازی میکند. تحقیقات انجام شده نشان میدهد که کاربران ترجیح میدهند برای جستجو، از کاتولوگهای از پیش دستهبندی شده استفاده کنند.

از طرفی رسیدن به این قبیل نیازهای اساسی بدون تکنیکهای خودکار دستهبندی صفحات وب و تحت ویرایش دستی و طبیعی توسط انسان بسیار مشکل است. زیرا با افزایش حجم اطلاعات طبقهبندی دستی بسیار وقتگیر و دشوار است. در نگاه اول، دستهبندی صفحات وب را میتوان از برنامههای اداری دستهبندی متون مقتبس نمود. صفحات وب ساختار اصلی و اساسی خود را در قالب زبان HTML قرار میدهند که آنها شامل محتویات پر سروصدا مانند تیترهای تبلیغاتی و یا هدایتگرهای راهنما و غیر متنی هستند.

اگر روشهای خاص طبقهبندی ویژه متون برای این صفحات بکار گرفته شود چون متمایل به یک الگوریتم خاص دستهبندی متون است، گمراه شده و باعث از دست رفتن تمرکز بر موضوعات اصلی و محتویات مهم میشود. زیرا این محتویات فقط شامل متن نیست. پس وظیفه و هدف مهم ما طراحی یک کاوشگر هوشمند برای جستجوی مطالب مهم صفحات وب است که هم شامل اطلاعات متنی و هم سایر اطلاعات مهم باشد

در نتیجه پیشرفت وب و اسناد متنی، وبکاوی و متنکاوی به طور فزایندهای در حال تبدیل شدن به محبوبیت میباشد. کاوش محتوای وب شامل؛ استخراج یا کاوش اطلاعات مفید و یا دانش از دادههای صفحه وب میباشد. به عنوان مثال، آنها به طور خودکار میتوانند صفحات وب را با توجه به موضوع شان، طبقهبندی و خوشهبندی کنند

این نوع از وظایف مشابه در دادهکاوی سنتی نیز وجود دارد. فرآیند طبقهبندی،نسبتاً به دو فاز آموزشی تقسیم شده است، زمانی که یک مدل طبقهبندی از مجموعه آموزشی ساخته شده و تست میشود و زمانی که مدل توسط مجموعه تست ارزیابی میشود. در مرحله آموزش الگوریتم دارای دسترسی به مقادیر، ویژگیهای پیشبینی و هم ویژگی هدف برای همه نمونههای مجموعه آموزشی است و با استفاده از این اطلاعات یک مدل طبقهبندی را میسازد. انواع تکنیکهای یادگیری ماشین و آماری برای طبقهبندی شامل: رویکرد k امین همسایه نزدیک، مدل احتمالاتی بیزین، یادگیری قانون استقرا، ماشین بردار پشتیبان، درخت تصمیم و شبکههای عصبی

ماهیت کنترل نشده از محتوای وب، چالش های اضافی را به طبقهبندی صفحات وب در مقایسه با طبقه بندی سنتی متن اضافه میکند. محتوای وب نیمه ساختار یافته است و حاوی اطلاعات قالببندی به صورت تگ های HTML است. یک صفحه وب شامل هایپر لینک، به سایر صفحات اشاره دارد. این ماهیت به هم پیوستگی از صفحات وب، ویژگیهایی را فراهم میکند تا کمک بیشتری در طبقهبندی شود. اول از همه عبارات از داخل تگهای HTML خارج میشوند، گام بعدی حذف کلمات توقف است. از آنجایی که آنها در تمام اسناد مشترک هستند و در جستجو کمک چندانی به ما نمیکنند.

در اغلب موارد الگوریتم ریشهیابی میشود تا کلمات برای رسیدن به ساقه اولیهشان کاهش پیدا کنند. یکی از این ریشههایی که اغلب استفاده میشود، الگوریتم ریشه یابی پورتر است. الگوریتم های یادگیری ماشین بر روی چنین بردارهایی به منظور آموزش طبقهبندی مربوطه استفاده میشوند. مکانیسم طبقهبندی الگوریتم استفاده شده برای تست یک سند نمونه ای که برچسب ندارد در برابر دادههای آموزش داده شده است. در این روش کاربر با صفحات خانگی از وب سایتهای سازماندهی شده سر و کار دارد 

یک صفحه اصلی تکامل یافته منظمی از یک وب سایت به عنوان یک نقطه ورود برای کل وب سایت در نظر گرفته میشود. این نشان دهنده خلاصه ای از نتیجه وب سایت است. بسیاری از لینکهای URL ها در صفحات سطح دوم بیشتر درباره ماهیت این سازمان میگویند. اطلاعاتی شامل عنوان، کلمه کلیدی متا، توضیحات متا و در برچسب ها از تگهای a Href ، منابع خیلی مهمی از ویژگی های مبدأ هستند 

در این مقاله یک الگوریتم پایای خوشهبندی ترکیبی و یا موجود بر پایهی نتایج آزمایشگاهی به منظور طبقهبندی محتوایی صفحات وب پیشنهاد میگردد. از آن جا که تحقیقات صورت گرفته تاکنون هریک از منظری متفاوت و با اهدافی متفاوت به دستهبندی صفحات وب پرداختهاند این حوزه بسیار وسیع بوده و در هیچ یک از زیر حوزهها - طبقهبندی محتوایی، ساختاری، مبتنی بر بازدید - روشی جامع به منظور دستهبندی صفحات ارائه نشده است. هدف این مقاله ارائهی روشی به منظور دسته-بندی محتوایی صفحات وب با تکیه بر الگوریتمهای خوشهبندی است. در زیر به شرح اهداف تحقیق میپردازیم:

-    بررسی جنبههای مختلف معیارها و الگوریتمهای خوشهبندی صفحات وب

-    طبقهبندی محتوایی صفحات وب با استفاده از یک الگوریتم خوشهبندی با بهترین کارایی

-    قرار گرفتن صفحات وب در گروههای مربوط به خود با کمترین خطای ممکن

-    به دست آوردن درصد موفقیت بهترین گروه در این دسته بندی

در این مقاله چندین روش خوشهبندی مورد بررسی قرار گرفته است. این روشها شامل: خوشهبندی اسناد براساس ترکیب تگهایHTML، روش یادگیری ماشین K نزدیکترین همسایه، روش خوشهبندی بر اساس الگوریتم K-Means و خوشهبندی بر اساس پیوند خروجی را میتوان اشاره کرد.

در شکل1 نمودار مدلسازی روشهای طبقهبندی صفحات وب آورده شده است. در ادامه تمامی روشهای ذکر شده مورد بررسی قرار گرفته و درصد موفقیت هرکدام در طبقهبندی صفحات وب شرح داده میشود.

-2 طبقهبندی صفحات وب با استفاده از راهکارهای خوشهبندی

مجموعه دادههای جمعآوری شده شامل چهار گروه از صفحات وب میباشد. گروهها شامل صفحات وب آموزشی، پزشکی، خبری و ورزشی میباشد. هر کدام از این گروهها به طور مجزا، شامل 25 صفحه وب میباشند. برای تشکیل دیتابیس، از عباراتی که مرتبط با موضوع محتوای صفحات وب میباشند، استفاده شده است. در انتها مترادف عبارات توسط نرمافزار WordNet جستجو و دیتابیس تشکیل میشود.

جدول -1 تعداد اسناد موجود در مجموعه داده

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید