بخشی از مقاله
بررسي تکنيک هاي کاوش در ساختار لينک ها در وب
چکيده
مطالعات انجام شده نشان مي داد که از تکنيک هاي web mining براي توليد و استخراج معنا در کاربرد وب معنايي استفاده مي کنند و همچنين رابطه عکس ان هم بسيار حايز اهميت است يعني از لايه هاي مختلف وب معنايي براي کاوش وب استفاده مي کنند.
يکي از کارهاي انجام شده کاوش در ساختار لينک ها مي باشد. هايپرلينک ها معمولا به عنوان معياري براي اندازه گيري اهميت صفحه ها به کار مي رود.در حقيقت معنا٤،محتوا٥ و ساختار٦ معيار هايي است که تعيين مي کند آيا يک صفحه معتبر ايت يا نه .
اين مقاله مطالعه اي در خصوص روش هاي کاوش ساختار لينک ها در وب است . ابتدا تکنيک هاي وب کاوي و روشهاي استفاده شده در آن را مرور مي کنيم ، که شامل کاوش در محتوا، کاوش در ساختار لينک ها، کاوش در کاربرد صفحه ها مي باشد. ساختار لينک ها جهت تعيين ميزان اعتبار صفحات ، پيدا کردن صفحات به هم مرتبط ، دسته بندي صفحات بر اساس ساختار لينک ها و ترم هاي لينک و ترم هاي نزديک به لينک و ايجاد Taxonomy براي محتواي صفحات وب بکار مي رود. در ادامه به معرفي و تحليل تکنيک هاي استفاده شده در تجزيه و تحليل ساختار لينک ها مي پردازيم . ا يدواريم اين مقاله گذرگاهي در جهت تحقيقات آينده باشد.
۱. مقدمه
داده هاي روي وب تنها بوسيله انسان فهميده مي شوند اما با توجه به حجم بالاي داده ها پردازش و فهم داده ها بوسيله ماشين ضروري به نظر مي رسد. هدف وب معنائي قابل فهم کردن داده ها براي ماشين مي باشد. خود کلمه معنا به معني يک مدل منطقي فرمال براي نمايش اطلاعات مي باشد.وب کاوي به استخراج اتوماتيک ، اطلاعات مفيد و مخفي از داده ها و محتواي صفحات وب اشاره مي کند. از تکنيک هاي وب کاوي براي استخراج ساختارهاي معنايي در وب و ساخت وب معنايي استفاده مي شود.در واقع وب کاوي تکنيک هاي داده کاوي بر روي محتوا١ و ساختار و کاربرد٣ منابع وب مي باشدسه زمينه متفاوت در وب کاوي وجود دارد، کاوش درمحتوا، کاوش در ساختار و کاوش در کاربرد که هر کدام از تکنيک هاي مختلفي استفاده مي کنند.
در اين مقاله در بخش هاي دو و سه و چهار به تعريف و معرفي اجمالي ين سه زمينه در وب کاوي و دانشي (معنايي ) که در هرمرحله مي توان استخراج کرد مي پردازيم . ساختار هايپرلينک ها درساخت چهار نوع دانش و اطلاع تا کنون استفاده شده است . در بخش ۴,۱ روش هاي معرفي شده در ساختار لينکها در وب را جهت پيدا کردن صفحات مشابه ، ۴,۲ روش هاي معرفي شده در ساختار لينکها در وب را جهت پيدا کردن صفحات معتبر، ۴,۳ دسته بندي صفحات بر اساس ساختار لينک ها و ۴,۴ بازيابي محتواي صفحه بر اساس ساختار لينکها را يان مي کنيم .
۲. کاوش محتواي صفحات وب
[۰ ]کاوش محتوا بيشتر بر روي کاوش متن دلالت دارد البته منابعي همچون عکس ، صدا، فيلم هم وجود دارد و از آنها هم مي توان در آينده جهت توليد معنا استفاده کرد.بازيابي اطلاعات ٤ از جمله مهمترين تکنيک هايي است که در کاوش وب استفاده مي شود.. مشابه با تکنيک هاي داده کاوي از ساختار هاي داده اي همچون جدول هاي پايگاه داده مي توان بهره گرفت يا بروي داده هاي نيمه ساختيافته مانند فايل ها xml، تگ هاي html, و يا بي ساختار مانند متن صفحه ها به کار برده شود. متدهاي محتوا کاوي اکثرا براي مباحث يادگيري ontology ، ادغام و نگاشت
ontology ها استفاده مي شود.Ontology توصيف رسمي از يک سري مفاهيم ، سلسله مراتب و ارتباط بين مفاهيم مي باشد.
۳. کاوش کاربرد صفحات وب
[۰ ]درکاوش کاربرد صفحات وب تمرکز بر روي رکوردهاي درخواست هاي ينندگان وب سايت ها انجام مي شود که اين اطلاعات در فايل هاي گزارش ٥ سرور موجود مي باشد. محتوا و ساختار منعکس کننده مقصود طراحان وب سايت است و اما رفتار واقعي کاربران برروي منابع سايت ساختار ديگري را آشکار مي سازد. براي مثال در يک کاوش ملاقات هاي انجام شده بر روي صفحات مشخص شده کساني که به محصول A علاقه مندند به محصول B يز علاقه مند هستند، از اين خصوصيت براي خصوصي سازي استفاده مي شود، مثلا زماني که محصول A ملاقات مي شود، محصول B را هم پيشنهاد ميدهيم . دوم بررسي ارتباطات در کاربرد صفحات ممکن است معاني خاصي را نشان بدهد مثلا کاوشي نشان ميدهد که کار بران براي رسيدن به صفحه D از صفحه C مي روند، که شايد مسير طولاني را مي پيمايند يا رسيدن به صفحه اي مشکل باشد. ين کاوش ها مي تواند در بهبود معماري وب سايت کمک کند.دانش بعدي که از کاربر صفحات در وب مي توان کسب کرد، تشخيص موضوع است . با ين تکنيک حوادث و اتفاقات را در دنيا سريع تر از کاوش متن مي توان استنباط کرد.مثلا در استفاده از اطلاعات يک سايت پزشکي ، مي توان يک اپيدمي را تشخيص داد. کاوش در کاربرد همچنين در پيشگويي لينک ها نيز به کار مي رود[۶] از يک مدل markov chain براي پيشگويي لينک ها استفاده مي کند.
۴. کاوش ساختار صفحات وب
کاوش در ساختار صفحات وب بر روي هايپر ينک هاي صفحه هاي وب بکار مي رود، کاوش بر روي مجموعه اي از صفحات تمرکز مي کند از مجموعه صفحات يک وب سايت تا کل مجموعه وب مي تواند باشد.در ين مقاله ما به بررسي اطلاعاتي که از تحليل هايپر ينک هاي صفحات وب بدست مي يد مي پردازيم .در واقع مي توان گفت تجزيه و تحليل هايپر ينک ها از دو فرضيه استفاده مي کند[ ]:
• فرضيه ۱ يک هايپر ينک از صفحه A به صفحه B در واقع يک يشنهاد(توصيه ) به صفحه B است از طرف نويسنده صفحه A. مطابق شکل ۱ .
• فرضيه ۲:اگر صفحه A وB بوسيله يک هايپر ينک به يکديگر متصل شده باشند، احتمال آن مي رود که اين دو صفحه موضوع يکساني داشته باشند.
• خاصيت هم ارجاعي : در فرضيه ۱ گفته شد زماني که در يک صفحه هايپرلينکي از صفحه A به صفحه B وجود دارد در واقع نويسنده به شما صفحه B را براي ارجاع پيشنهاد ميدهد،صفحه A مي تواند به صفحات متعددي اشاره کند ، مثلا A به Bو C
اشاره مي کند. قرار گرفتن لينک C وB در کنار يکديگر حکايت از نوعي ارتباط و شباهت مي کند.شکل ۲.
در کنار يکديگر درصفحه A به طور ضمني بيان ميکنند که ميان B و C شباهت و ارتباطي وجود دارد.
• درجه هم ارجاعي : در ارتباط با يک جفت گره مطرح مي شود، تعداد پدران مشترکي (گره هايي که به گره مربوطه اشاره مي کنند)که دو گره دارند درجه هم ارجاعي مي باشد.
در يک دسته بندي کلي ساختار هايپر ينک ها درساخت چهار نوع دانش و اطلاع تا کنون استفاده شده است . استفاده از هايپر ينک ها براي پيدا کردن صفحات مشابه و به هم مرتبط ، . استفاده از هايپر ينک ها براي يدا کردن صفحات معتبر و مناسب ، . استفاده از هايپر ينک ها براي دسته بندي صفحات . استفاده از هايپر ينک ها براي بازيابي محتواي صفحه . در بخش هاي ير ما به صورت مختصر به معرفي کارهاي انجام شده در هر زمينه مي پردازيم .
۴,۱ استفاده ازساختار صفحات وب ( هايپر ينک ها) براي پيدا کردن صفحات مشابه و به هم مرتبط صفحات به هم مرتبط يا مشابه صفحاتي هستند که از لحاظ موضوع ١ يکي هستند اما از نظرمعنا٢ ممکن است يکسان نباشند[۴] براي مثال