بخشی از پاورپوینت
--- پاورپوینت شامل تصاویر میباشد ----
اسلاید 1 :
ضرورت انجام پژوهش
هدف پژوهش
طبقه بندي مستندات
روش هاي وزن دهي ويژگي
روش وزن دهي ويژگي پيشنهادي TFCRF
روش وزن دهي ويژگي پيشنهادي LBTF
سيستم طبقه بندي كننده مستندات نيمه ساختيافته XML
مشخصات بستر آزمايشگاهي پياده سازي شده
نتايج ارزيابيهاي انجام شده
نتيجه گيري، دستاوردهاي پروژه، پيشنهاد كارهاي آينده
اسلاید 2 :
پيش پردازش مستندات
شاخص بندي مستندات
×تبديل مستندات به برداري از كلمات تشكيل دهنده
انتخاب ويژگي
×كاهش ابعاد بردار كلمات
وزن دهي ويژگي
×تعيين ميزان اهميت و قدرت كلمات انتخاب شده در متمايز كردن هر مستند از ساير مستندات
طبقه بندي مستندات
اعمال الگوريتم طبقه بندي بر روي بردار
كلمات انتخاب و وزن دهي شده مستندات
اسلاید 3 :
طبقهبندي مستندات = انتساب اسناد متني بر اساس محتوي به يك يا چند طبقه از قبل تعيين شده
فازهاي طبقه بندي
فاز آموزشيßساخت مدل با استفاده از مستندات آموزشي
فار آزمايشيß استفاده از مدل بر روي مستندات آزمايشي
اسلاید 4 :
پيش پردازش مستندات
شاخص بندي مستندات
×تبديل مستندات به برداري از كلمات تشكيل دهنده
انتخاب ويژگي
×كاهش ابعاد بردار كلمات
وزن دهي ويژگي
×تعيين ميزان اهميت و قدرت كلمات انتخاب شده در متمايز كردن هر مستند از ساير مستندات
طبقه بندي مستندات
اعمال الگوريتم طبقه بندي بر روي بردار
كلمات انتخاب و وزن دهي شده مستندات
اسلاید 5 :
بهبود روش وزن دهي ويژگي براي بالابردن كارايي طبقه بندي كننده
مستندات نيمه ساختيافته XML
اسلاید 6 :
وزن دهي ويژگي
k: تعداد ويژگي هاي متمايز در كل مجموعة D
wik: وزن دهي ويژگي tk در مستند di
روش هاي متداول وزن دهي ويژگي
روشهاي مبتني بر TF
×تابعي از توزيع ويژگي در هر يك از مستندات
روشهاي مبتني بر IDF
×تابعي از توزيع ويژگي در مجموعه مستندات D
روش هاي مبتني بر اطلاعات طبقات
×تابعي از توزيع ويژگي در طبقات
اسلاید 7 :
a: تعداد مستندات فاقد ويژگي x از كلاس c1
b: تعداد مستندات داراي ويژگي x از كلاس c1
c: تعداد مستندات داراي ويژگي x از كلاس غير c1
d: تعداد مستندات فاقد ويژگي x از كلاس غير c1
اسلاید 8 :
مثال: طبقه بندي مقالات علمي برچسب گذاري شده XML
فركانس ويژگي x در ”عنوان“ 1 بار
”چكيده“ 2 بار
” متن“ 100 بار
روش وزن دهي ويژگي TF
روش وزن دهي ويژگي منطقي
مساله: تعيين ميزان اهميت (وزن) اجزاء مستند نيمه ساختيافته
راه حل1: فرايند مكاشفه اي در تعيين ميزان اهميت هر جزء (Giri سال 2004)
راه حل2: طبقه بندي كننده متا (Bratko سال 2004 و 2006)
راه حل 3: روش وزن دهي ويژگي LBTF پيشنهادي (Mal ki در سال 2007)
اسلاید 9 :
ايده: وزن دهي ويژگي براساس اطلاعات ساختاري مستندات نيمه ساختيافته XML
تكنيك: توجه به چگالي هر يك از اجزاء تشكيل دهنده مستند XML
اسلاید 10 :
وظيفه: دريافت و پالايش مجموعه مستندات XML ورودي جهت تعيين مجموعه D
ورودي: مستندات نيمه ساختيافته XML
خروجي: مستندات پالايش شده XML به عنوان مجموعه D
مولفه ها
حذف كننده برچسب هاي غير ضروري
بررسي كننده ساختار مستندات XML
انتخاب كننده مستندات XML پالايش شده