بخشی از مقاله
چکیده :
امروزه دسته بندي صفحات وب براي بازیابی و مدیریت اطلاعات وب ،ساختار،حفاظت یا گسترش فایل هاي وب - توالی وب - ، بهبود کیفیت نتایج تحقیق و کاهش زمان جست و جو ،استفاده در موتورهاي جست وجوي عمودي و تمرکز خاص ناحیه اي در این موتورها و فیلترکردن محتواي وب با استفاده از مرور کردن وب کاربرد و ضرورت فراوانی دارد . ما براي بهبود دسته بندي مفهومی صفحات وب از رویکرد ارزش واژه در روشی مبتنی بر اتوماتاي یادگیر توزیع شده استفاده می کنیم . در روش پیشنهادي به هر صفحه یک اتوماتاي یادگیر تخصیص داده می شود که وظیفه آن استفاده از وزن کلمات کلیدي صفحات به منظور یادگیري میزان ارتباط آن صفحه با سایر صفحات وب دیگر است که این امر موجب دسته بندي سلسله مراتبی صفحات میشود . براي ارزیابی روش پیشنهادي آن را بر روي داده هاي مختلفی آزمایش کردیم که نتایج خوبی حاصل شد و همچنین الگوریتم پیشنهادي از سرعت خوبی برخوردار بود.
کلیدواژهها: اتوماتاي یادگیر،اتوماتاي یادگیر توزیع شده،دسته بندي صفحات وب،وزن واژه.
١- مقدمه
با افزایش روزافزون تعداد صفحات وب ، دستیابی به صفحه هاي مورد نیاز و همچنین تفسیر آن ها به عنوان یک چالش فراروي بازیابی اطلاعات و داده کاوي موردتوجه قرار گرفته است. بنابراین دسته بندي کردن صفحات وب می تواند نقش مهمی درافزایش جست وجو، تفکیک ،خلاصه سازي و تفسیر وب داشته باشد. دسته بندي صفحات وب نوع نظارت شده اي از مسئله آموزشی است که به منظور دسته بندي این صفحات به مجموعه اي از دسته هاي از پیش تعریف شده به کار می رود که بر اساس داده هاي آموزشی برچسب دار می باشند . دسته بندي وظایف شامل اختصاص یافتن اسناد بر اصول موضوع ، عملکرد ، نظر ، نوع و غیره می باشد بر خلاف بسیاري از دسته بندي هاي متنی کلی ، روش هاي دسته بندي صفحات وب داراي مزیت محتوایی یکسان ساختاري و ارتباطی با دیگر صفحات در وب است .
در سال هاي اخیر کارهایی در زمینه دسته بندي صفحات وب گزارش شده است که برخی ازآنها عبارتند از:استفاده از نزدیک ترین درخت مجاورت - Kwon et al.2003 - K-NN ، استفاده از شبکه هاي عصبی - Anagnos et - Selamat et al.2004 - al.2004 - ، استفاده از تئوريهاي ناهنجار و نامعلوم و سیستم هاي فازي براي کاهش داده هاي زائد - Jensen et al.2004 - ، استفاده از مدل SVM دستگاه حفاظتی بردار - Wakaki et - Chen et al.2006 - al.2006 - ، استفاده از وزن کلمات با الگوریتم TFIDF در صفحات وابسته به یک دیکشنري - Liang et al.2006 - et al.2010 - Ulmer ، استفاده از درخت هاي تعیین کننده مبتنی بر فاصله - Estruh et al.2006 - و استفاده ازالگوریتم ژنتیک. - Ozel et al.2010 - در این مقاله روشی مبتنی بر اتوماتاي یادگیر توزیع شده که براي دسته بندي صفحات وب از وزن کلمات کلیدي که برمبناي الگوریتم TFIDF محاسبه می شوند، پیشنهاد می گردد .
در این روش به هر صفحه وب یک اتوماتاي یادگیر اختصاص داده می شود که وظیفه اش یادگیري ارتباط آن صفحه با دیگر صفحات و در نتیجه تعیین دسته مطلوب آن صفحه می باشد که اتوماتا براي این کار باید از وزن کلمات کلیدي صفحه که با استفاده از الگوریتم TFIDF به دست می آید استفاده نماید.روش پیشنهادي ضمن داشتن کارایی مناسب و صحت مدل ، پارامترهاي یادگیري در اتوماتاي یادگیر توزیع شده را با توجه به تعداد اسناد وب و با توجه به تعداد کلمات کلیدي به صورت پویا تنظیم می کند و اجراي آن بر روي صفحات وب آزمایشی نتایج خوبی را نشان می دهد. ادامه مقاله بدین صورت سازماندهی شده است : در بخش 2 اتوماتاي یادگیر و اتوماتاي یادگیر توزیع شده به اختصار بیان می شود . در بخش 3 روش TFIDF براي محاسبه شباهت سند و وزن یابی واژه مورد بحث قرار می گیرد . در بخش 4 روش پیشنهادي ارائه خواهد شد و در بخش 5 نتایج حاصل از ارزیابی روش پیشنهادي بیان میشود و بخش نهایی هم نتیجه گیري است.
-2 اتوماتاي یادگیر - - Narendra et al.1989 , Lakshmivarahan et al.1981
اتوماتاي یادگیر یک مدل انتزاعی است که تعداد محدودي عمل را می تواند انجام دهد . هر عمل انتخاب شده توسط محیطی احتمالی ارزیابی شده و پاسخی به اتوماتاي یادگیر داده می شود. اتوماتاي یادگیر از این پاسخ استفاده نموده و عمل خود را براي مرحله بعد انتخاب می کند . شکل 1 ارتباط بین اتوماتاي یادگیر و محیط را نشان می دهد.
-1-2 اتوماتاي یادگیر با ساختار متغیر
اتوماتاي یادگیر با ساختار متغیر توسط 4 تایی {α, β,p,t} نشان داده می شود که در آن α = { α1, α2 ,… , α r} مجموعه عملهاي اتوماتا.β ={ β1, β2,… , βm} مجموعه وروديهاي اتوماتا p={p1,p2,… ,pr} بردار احتمال انتخاب هر یک از عملها و p - n+1 - = T[α - n - , β - n - ,p - n - ] الگوریتم یادگیري می باشد . در این نوع از اتوماتاها، اگر عمل αi در مرحله nام انتخاب شود و پاسخ مطلوب از محیط دریافت نماید ، احتمال pi - n - افزایش یافته و سایر احتمالها کاهش می یابند و براي پاسخ نا مطلوب احتمال pi - n - کاهش یافته و سایر الگوریتم زیر یک نمونه از الگوریتمهاي یادگیري خطی در اتوماتاي با ساختار متغییر است .
الف - پاسخ مطلوب
ب - پاسخ نامطلوب
در روابط فوق ، a پارامتر پاداش و b پارامتر جریمه می باشد.
-2-2 اتوماتاي یادگیر توزیع شده
یک اتوماتاي یادگیر توزیع شده شبکه اي از اتوماتاهاي یادگیر است که براي حل یک مسأله خاص با یکدیگر همکاري دارند . در این شبکه اتوماتاهاي یادگیر همکار در هر زمان تنها یک اتوماتا فعال است .تعداد اعمال قابل انجام توسط یک اتوماتا در DIA برابر با تعداد اتوماتاهایی است که به این اتوماتا متصل شده اند . انتخاب یک عمل توسط اتوماتاي یادگیردر این شبکه باعث فعال شدن اتوماتاي یادگیر متصل شده به این اتوماتاي یادگیر متناظر با این عمل گردد . به عبارت دیگر انتخاب یک عمل توسط یک اتوماتاي یادگیر در این شبکه متناظر با فعال شدن یک اتوماتاي یادگیر دیگر در این شبکه است .
یک DIA توسط یک گراف که هر یک از رئوس آن یک اتوماتاي یادگیر است ، نشان داده می شود وجود یال - LAi,LAj - در این گراف بدین معناست که انتخاب عمل αij توسط LAi باعث فعال شدن LAj می گردد . تعداد اعمال قابل انتخاب توسط LAk بصورت نمایش داده شود . در این مجموعه عدد نشان دهنده احتمال مربوط به عمل است . انتخاب عمل توسط LAk باعث فعال شدن LAm می شود . rk تعداد اعمال قابل انجام توسط اتوماتاي LAk را نشان می دهد . براي کسب اطلاعات بیشتر راجع به اتوماتاهاي یادگیر توزیع شده وکاربردهاي آن می توان به مراجعه - Narendra et al.1989 - , - Lakshmivarahan et al.1981 - نمود.
-3 شباهت سند در روش - Ulmer et al.2010 - :TFIDF
شباهت سند با استفاده از اهمیت اصطلاح ،یک روش بازیابی اطلاعات است که به صورت زیر بیان می شود: