بخشی از پاورپوینت

--- پاورپوینت شامل تصاویر میباشد ----

اسلاید 1 :

دسته‌بندي صفحات وب

گروه کامپيوتر

 چكيده

دسته‌بندي صفحات وب در بسياري از وظيفه‌هاي مديريتي در وب نقش ضروري‌اي دارد. طبيعت غبرقابل کنترل محتواي وب چالش‌هاي جديدي را براي اين دسته بندي ايجاد مي کند اما طبيعت متصل صفحات وب و همچنين حالت نيمه ساخت‌يافته آنها قابليتهايي را فراهم مي کند که به کمک اين دسته‌بندي مي‌آيد. امروزه توسعه زيادي در زمينه دسته‌بندي هوشمند صفحات صورت گرفته است بطوري‌که بسياري از محققين تمرکز خود را بر روي اين قصيه قرار داده اند. در اين مقاله ما رويکردهاي دسته‌بندي صفحات وب را بررسي  مي‌کنيم تا چشم انداز هاي جديدي را براي تحقيات بيابيم. همچنين در ابتدا برخي از کاربردهاي دسته‌بندي صفحات وب را بيان خواهيم نمود. همچنين خصوصيتها و الگوريتمهايي را که براي دسته‌بندي مفيد هستند توضيح خواهيم داد.

اسلاید 2 :

كلمات كليدي

دسته‌بندي صفحات وب، دسته‌کننده، درخت تصميم‌گيري، دسته‌کننده بيزي، ماشين بردار پشتيبان، خصوصيات درون صفحه، خصوصيات مجاورين، انتخاب قابليت


1- مقدمه

دسته‌بندي در بسياري از وظايف مديريت وبازيابي اطلاعات يک نقش حياتي ايفا مي کند.  در وب دسته‌بندي محتوي صفحات وب براي تمرکز خزيدن[1]، کمک به توسعه راهنماهاي وب[2]، تحليل بر اساس موضوع[3] لينکهاي وب و براي تحليل ساختار موضوعي وب ضروري است. دسته‌بندي صفحات وب همچنين مي تواند به بهبود شرايط جستجوي وب نيز کمک نمايد[1].

دسته‌بندي صفحات وب که به گروه بندي صفحات وب نيز معروف است عبارتست از فرايند نسبت دادن يک صفحه وب به يک يا چند گروه از پيش تعيين شده. دسته‌بندي اغلب بعنوان يک مسئله يادگيري مطرح مي شود که در آن از يکسري داده هاي برچسب گذاري شده براي آموزش و تمرين دسته‌کننده استفاده مي شود تا بر اساس آن دسته‌کننده بتواند داده ها را برچسب گذاري کند.

اسلاید 3 :

2- کاربردهاي دسته‌بندي صفحات وب

2-1- ايجاد ، پشتيباني يا توسعه راهنماهاي وب

برخي از سايتها مانند Yahoo! و dmoz ODP يکسري راهنماي وب دارند که بر اساس آن مي توان يکسري جستجو در گروههاي از پيش تعيين شده انجام داد که در حال حاضر اين راهنماها توسط انسان ايجاد مي شوند. در جولاي 2006 در dmoz ODP، 73354 اديتور راهنما وجود داشت. با گسترش روزافزون صفحات وب ديدگاه سنتي به اين قضيه ديگر نمي تواند موثر باشد . اما با استفاده از دسته‌بندي صفحات وب مي توان اين راهنماها را براحتي ايجاد کرد و توسعه داد[1].

2-2- بهبود کيفيت نتايج جستجو

گنگ بودن پرس و جوها[1] يکي از مشکلات اساسي براي نتايج جستجو مي باشد. بعنوان مثال کلمه bank هم به معني ساحل و هم به معني بانک است. رويکردهاي مختلفي براي بازيابي اطلاعات در اينگونه موارد مطرح گرديده است. Chekuri و گروهش دسته‌بندي اتوماتيک صفحات وب به منظور افزايش دقت جستجو در وب را مورد مطالعه قرار دادند. به يک دسته‌کننده آماري با استفاده از يکسري صفحات موجود آموزش داده شد، سپس اين دسته‌کننده بر روي يکسري صفحات جديد بکار گرفته شد که يک ليست مرتب از گروهها را ايجاد کرد که صفحات وب مي توانند در آن قرار گيرند. در زمان پرس و جو[2] از کاربر خواسته مي شود تا يک يا چند گروه را انتخاب نمايد بطوريکه فقط اطلاعات مربوط به آن گروه‌ها برگردانده مي شوند يا اينکه موتور جستجو فقط يک ليست از گروه‌هايي را نشان مي دهد که اطلاعات مورد نظر در آنها وجود دارد. اما اين رويکرد فقط زماني ثمربخش است که کاربر به دنبال يک چيز معلوم و مشخص بگردد.

اسلاید 4 :

نتايج جستجو معمولاً بر اساس رتبه بندي نمايش داده مي شوند. يک رويکرد ارائه شده توسط Chen and Damais نتايج جستجو را در يک ساختار سيسله مراتبي از پيش تعيين شده دسته‌بندي مي کند و نتايج گروهبندي شده را نشان مي دهد[4]. مطالعه کاربران آنها نشان مي‌دهد که نمايش گروهي براي کاربران خوشايندتر از نتايج ليست شده است و براي کاربران جهت يافتن اطلاعاتشان موثرتر است. در مقايسه با روش قبل اين روش در زمان پرس و جو اثر کمتري دارد زيرا گروه بندي صفحات در آن بصورت در جا[1] ايجاد مي شود. در هر حال لازم نيست که کاربر گروه‌هاي مورد نظر خود براي جستجو را انتخاب نمايد بنابراين اين روش زماني که کاربر مورد جستجو را دقيقاً نمي‌شناسد بسيار سودمند است.

متشابهاً Kaki نيز نمايش گروهي را براي نتايج جستجوي کاربران پيشنهاد داده است. آزمايشات وي نشان مي دهد که نمايش گروهي براي کاربران بسيار مفيد است مخصوصاً زماني که رتبه بندي نتايج راضي کننده نيست[5].

Page and Brin الگوريتم رتبه بندي بر اساس لينک[2] را توسعه دادند که Pagerank ناميده شد. در اين روش ميزان معتبر بودن يک صفحه بر اساس يک گراف ايجاد شده از صفحات وب و لينکهايش و بدون در نظر گرفتن موضوع هر صفحه محاسبه مي شود . Haveliwala رتبه‌بندي بر اساس موضوع را ارائه کرد که باعث محاسبه رتبه بندي چندگانه مي شود بطوريکه رتبه بندي براي هر موضوع جداگانه خواهد بود . اين روش نياز به يکسري صفحات دارد که از قبل و با دقت دسته‌بندي شده باشند[1].

اسلاید 5 :

-3- کمک به سيستم‌هاي پاسخ به سوال[1]

يک سيستم پاسخ به سوال ممکن است تکنيکهاي دسته‌بندي را براي بهبود کيفيت پاسخهايش بکار ببرد.

يک سوال جالب که در نوشته هاي سابق پاسخ داده نشده اين است که چطور دسته‌بندي موضوعي صفحات وب در سيستمهاي پاسخ به سؤال مفيد است. در قسمت قبلي يک تعداد رويکرد در مورد استفاده از اطلاعات موضوعي صفحات وب برا ي بهبود کارايي جستجوي وب را ديديم. بطور مشابه توسط تعيين گروه مورد انتظار پاسخ يک سوال و دسته‌بندي صفحاتي وبي که ممکن است شامل يک پاسخ کانديد باشند، يک سيستم پاسخ يه سوال مي تواند در هر دو زمينه دقت و کارايي مفيد واقع شود[1].

2-4- کاربردهاي ديگر

در کنار کاربردهاي ذکر شده، دسته‌بندي صفحات وب در فيلترينگ محتواي وب، کمک به مرور وب و ساختمان بر پايه دانش نيز مي‌تواند مفيد واقع شود.

3- تکنيک هاي دسته‌بندي صفحات وب

همانطور که اشاره شد دسته‌بندي صفحات وب شامل نسبت دادن اسناد وب به يکي از چند گروه از پيش تعيين شده است. براي نايل شدن به اين هدف اسناد ورودي توسط يک مجموعه از مشخصات[2] که معمولاً خصوصيات[3] ناميده مي شود توصيف مي شوند. برخلاف خوشه‌بندي[4] اسناد وب که شامل آموزش بدون نظارت است، در دسته‌بندي يک مجموعه آموزشي از داده‌ها با برچسب‌گذاري قبلي نياز است (يادگيري ماشين نظارتي). هدف دسته‌بندي تحليل داده هاي ورودي و ايجاد يک مدل دقيق براي هر دسته با استفاده از اين خصوصيات است. اسناد جديد در داخل يکي از اين دسته ها دسته‌بندي مي شوند.

اسلاید 6 :

در مسأله دسته‌بندي متن، مشخصات کلماتي هستند که درون اسناد متني قرار دارند. انتخاب خصوصيت[1] در بسياري از موارد قبل از يادگيري ماشين صورت مي گيرد تا فضاي خصوصيات[2] را کاهش دهد.

عموماً ما بين دسته‌کننده هاي بر پايه قانون[3] (قوانين بصورت دستي ساخته مي شوند، و مجموعه حاصل از قوانين مکمل است که اصلاح شوند) و دسته‌کننده هاي با يادگيري استقرايي[4] تمايز قائل مي شويم. دسته‌کننده هاي بر پايه يادگيري استقرايي توسط داده هاي آموزشي برچسب گذاري شده ساخته مي شوند که براي ايجاد و به روزرساني سهل و آسان هستند و به مهارتهاي نوشتن قوانين[5] نياز ندارند[3].

اسلاید 7 :

-1- دسته‌کننده‌هاي درخت تصميم گيري[1]

دسته‌کننده درخت تصميم گيري يکي از پر استفاده ترين روشهاي يادگيري با نظارت است که براي کاوش[2] داده‌ها مورد استفاده قرار مي گيرد. اين دسته‌کننده براي تفسير آسان است و مي‌تواند بصورت قوانين if-then-else بازنمايي گردد. در اين دسته‌کننده تابعي توسط مناطق ثابت تکه هاي تقريب زده مي شود و به هيچ دانش قبلي از توزيع داده‌ها نياز ندارد. اين دسته‌کننده بر روي داده‌هاي پارازيت دار به خوبي کار مي کند. يک دسته‌کننده درخت تصميم گيري در اکتشاف داده ها به روش زير کمک مي کند:

  • کاهش حجم زيادي از داده‌ها توسط تبديل آن به يک نوع فشرده تر که خصوصيات ذاتي و اساسي را حفظ مي کند و يک خلاصه دقيق را فراهم مي کند.
  • کشف مي کند که آيا داده‌ها شامل دسته هاي به خوبي جدا شده[3] از اشيا هستند، بطوري که دسته ها بتوانند در متن يک تئوري حقيقي[4] بطور با معني تفسير شوند.
  • داده ها را به شکل يک درخت نگاشت مي کند بطوري‌که مقادير پيش بيني بتوانند عقب گرد از برگ‌ها به ريشه توليد شوند. که ممکن است پيش بيني نتايج براي يک داده يا پرس و جوي جديد استفاده شود.

 

اسلاید 8 :

الگوريتم‌هاي درخت تصميم‌گيري اصلي در دو گروه زير دسته‌بندي شده اند:

  • دسته‌کننده‌ها از نوع يادگيري ماشين مانند ID3، C4.5وCART.
  • دسته‌کننده‌ها براي پايگاه داده‌اي بزرگ مانند SLIQ، SPRINT، SONARوRainForest.

شکل (2) : درخت تصميم گيري براي ريسک رانندگي

يک دسته‌کننده درخت تصميم گيري با استفاده از يک آستانه معين بر روي مقادير ويژگيها يک مجموعه داده را بر اساس تصميمات گسسته جدا مي کند. يک گره ريشه در بالاي ساختار درخت وجود دارد که خصوصيت را مشخص مي کند که در ابتدا بر اساس بيشترين تفاوت(تبعيض) شکسته مي شود. گره هاي داخلي درخت قوانين تصميم گيري ساده اي را روي يک يا چند ويژگي نشان مي دهد، بطوريکه گره هاي برگ برچسب دسته هاي پيش بيني شده هستند. مثلا در شکل شماره (2) که ريسک در رانندگي را مشخص مي کند ابتدا درخت توسط خصوصيت سن تقسيم بندي شده است و سپس در مرحله بعد بر اساس نوع ماشين. همانطور که در شکل مي بينيد برگها دسته‌هاي تعيين شده بر اساس خصوصيات هستند.

اسلاید 9 :

فرايند ساخت درخت با يک درخت خالي شروع مي شود و سپس مجموعه آموزشي وارد مي شود و فرايند طبق روال زير پيش مي رود تا هيچ تقسيم ديگري در درخت ممکن نباشد:

.1اگر تمام نمونه هاي آموزشي در گره فعلي t به گروه Ci متعلق باشند يک گره برگ با دسته Ci بساز.

.2در غير اين صورت با استفاده از يک معيار مناسب به هر يک از مجموعه هاي تقسيم شونده S يک نمره بده.

.3بهترين تقسيم S* را بعنوان آزمايش در گره فعلي انتخاب کن.

.4فرزندان ايجاد شده بر اساس تقسيم S* را ايجاد کن و داده‌هاي آزمايشي را بر اساس S* به گره‌هاي فرزند تقسيم کن(افراز کن).

.5به يک فرزند پالايش شده[1] مي گويند اگر تمام نمونه‌هاي آموزشي در t متعلق به همان دسته باشند. مراحل قبل را براي هر يک از فرزندان پالايش نشده[2] تکرار کن.

اسلاید 10 :

ساخت درخت مي‌تواند توسط ماکزيمم ساختن اطلاعات متقابل[1] عمومي از کل درخت، يا توسط بهينه سازي محلي بهره اطلاعات[2] انجام گيرد. گاهي اوقات معيارهاي فاصله اي مثل شاخص جيني[3] تنوع نيز استفاده مي شود. هم بهينه‌سازي محلي بهره اطلاعات و هم معيار تقسيم بندي بر اساس فاصله درختهاي کوچک، کم عمق و دقيق توليد مي کنند.

به منظور جداسازي در يک گره الگوريتم بصورت زير پيش مي رود:

  • يک ويژگي را که بهترين نمونه جداسازي از کلاسهاي مختلف است را بر مي دارد.

کمي کردن فاکتور شهودي براي اندازه گيري جداپذيري. يک I(S) پالايش نشده از يک مجموعه قراردادي S شامل   دسته را مشخص مي کند، که مي تواند بصورت زير باشد:

اطلاعات بي نظمي بصورت زير سنجيده مي‌شود:Entropy(S)=

Entropy(S)=  (1)

بطوريکه Pi فراواني نسبي دسته i در S است(يک احتمال قياسي) که مقدار آن وقتي همه الگوها فقط متعلق به يک دسته باشند صفر است و مقدرا آن  زماني که همه دسته‌ها به تعداد برابري هستند يک است.

نشانه گذاري جيني که بصورت زير بيان مي‌شود:

           Gini(S) = 1 -     (2)

محاسبه بهره اطلاعات در تقسيم S به r زير مجموعه. اين بعنوان ناخالصي S کمترين مجموع ناخالصي وزن دار هر زير مجموعه شمرده مي شود. براي مثال:

Gain(S,S1,…,Sr) = I(S) -

 

در متن اصلی پاورپوینت به هم ریختگی وجود ندارد. برای مطالعه بیشتر پاورپوینت آن را خریداری کنید