بخشی از مقاله
*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***
روشي نوين براي مدل سازي عدم قطعيت در تطبيق آنتولوژي
چکيده
تطبيق آنتولوژي سعي در برقراري روابط معنايي بين المانهاي مشابه در آنتولوژي هاي متفاوت دارد تا قابليت تعامل را در وبمعنايي فراهم کند. پرداختن به مسئله ناهمگني معنايي ، نکته اي کليدي در محيط وبمعنايي است . توليد (نيمه ) اتوماتيـک نگاشـت هـا بـا درنظرگرفتن عدم قطعيت ، کاري فشرده و مستعد خطاست . وقتي مقادير اطمينان نگاشت ها خود غيرقطعـي هسـتند، چگونـه متـد تجميع آنها مي تواند قطعي باشد؟ چگونه آنها را به روشي مشخص مدل کنيم ؟ اين مقاله روشي را براي مدلسـازي عـدم قطعيـت در تطبيق آنتولوژي براساس تئوري مجموعه هاي فازي و با استفاده از عدد فازي ذوزنقه اي معرفي مي کند و سپس بـه توصـيف روشـي براي تجميع عقايد تطبيق گران مي پردازد. به کمک اين روش، همترازي تطبيق گران را ترکيب مي کند تا بر همترازيهـاي متنـاقض و ناقص يا موارد مخرب غلبه شود. آزمايشات نشان داد که در آنتولوژيهاي واقعي ، نتايج بدست آمده ، از ميانگين تطبيق گران هم بالاتر است و به بهترين ايشان نزديک مي شود.
کلمات کليدي
تطبيق آنتولوژي، تجميع نگاشت ، تئوري مجموعه هاي فازي، وبمعنايي .
١- مقدمه
پيشرفت تکنولوژيهاي اطلاعاتي و مخابراتي، مقادير فراوانـي اطلاعـات ناهمگن و توزيع شده فراهم کرده است . داده ها از منابع متعددي ناشـي ميشوند و فراهم کردن قابليت تعامل بين آنها جنبه اي تعيين کننـده در وب معنايي دارد. در اجتماع وب معنايي ، قابليت تعامل بـه امـري بسـيار مهم و حياتي تبديل شده است . طراحان وب ، هم چنان با مشکل قابليت تعامل معنايي روبرو هستند، که در مسير استفاده ازکليه امکانات بالقوه وب قرار دارد. آنتولوژي، يکي از راه هاي نمـايش دانـش در وب معنـايي است . آنتولوژيها در همه جا حضور دارنـد و تطبيـق آنتولـوژي يکـي از محتملترين راهکارها جهت چيرگي بر مشـکلات نـاهمگني آن هاسـت .
تطبيـق آنتولـوژي، بـه فرآينـد يـافتن روابـط و يــا مشـابهت هـا بـين موجوديت هاي آنتولـوژيهـاي مختلـف اشـاره دارد تطبيـق آنتولـوژي مسأله اي پايه اي در بسياري از کاربردها، مانند مجتمـع سـازي داده هـا، انبار داده ها، تجارت الکترونيکـي، و پـردازش پـرس وجوهـاي مفهـومي است . بنابراين لازم است قبل از هرگونه پردازشي بر روي آنتولـوژيهـا، نگاشت بين آنها پيدا شود.
"تـاکنون راهکارهـاي متعـدد تطبيـق ، از ديـدگاه هـاي متفـاوتي پيشنهاد شده اند مانند پايگاه داده هـا، سيسـتم هـاي اطلاعـاتي و هـوش مصنوعي. آنها مشخصه هاي متفاوتي از آنتولوژيها را مورد بهره بـرداري قرار ميدهند از قبيل ساختارها، نمونه هاي داده ، معاني، يا برچسب ها و روش هايي از زمينه هاي مختلف استفاده مي کننـد ماننـد آمـار و آنـاليز داده ، يادگيري ماشين ، استدلال خودکار و زبان شناسـي. ايـن راهکارهـا تکنيک هاي مشابهي دارند و به مسائل مشابهي مي پردازند، اما در روش ترکيب و استخراج نتايج خود متفاوتند. بـدنبال آن مقايسـه و توصـيف آنها بواسطه فقدان بستري واحد به نسبت مشکل است ..."[١] .
امروزه تطبيق گران بسياري در دسترس هستند امـا پـرداختن بـه موضوع عدم قطعيت بعنوان يک چالش در تطبيق آنتولوژي باقي مانـده است [١٩]. تطبيق (نيمه ) اتوماتيک آنتولوژي، درجه اي از عدم قطعيـت را به بار ميآورد. درکنار عدم قطعيت در متد تطبيق مشابهت ، ابزارهاي تطبيق و تجميع که به توليد دانش اکتشافي بفرم قوانين مـيپردازنـد، همچنان عدم قطعيت را با خـود بهمـراه دارنـد[٤]. اسـاس ايـن مقالـه مدلسازي عدم قطعيت نگاشت ها بر اساس تئوري مجموعه هاي فـازي و سپس تجميع نگاشت ها با متدي جديد براي بهبود فرآيند تطبيق است .
اخيرًا، تحقيقات متعددي روي ارزيـابي نگاشـت بـا درنظرگـرفتن معاني آنتولوژيها تمرکـز کـرده انـد، در حـاليکـه طبيعـت غيرقطعـي نگاشت ها را نيز حفظ ميکنند.ِ اکرت [٢١] متدي را پياده سـازي کـرده است که در آن صحت يک تشابه با شيوه يادگيري تعيين ميشـود. وي در ايــن راســتا از دو منبــع اطلاعــاتي اســتفاده مــيکنــد: خروجــي تطبيق گران متفاوت و اطلاعاتي اضافي درباره طبيعت المـان هـايي کـه بايد تطبيق داده شوند. تفاوت آن با شيوه پيشنهادي در استفاده از متد يادگيري، محدوديت به نگاشت هاي يک به يک بـين مفـاهيم نامـدار و مشخصه ها و عدم پشتيباني از نگاشت هاي 1:n يا n:1يا n:m ميباشـد.
راهکاري ديگر از يک مدل رايگيري فازي براي مديريت برخوردها، بـا افزودن اعتماد بين عامل هاي نگاشت استفاده ميکند[١٥,١٦]. شيوه اي ديگر جهت انتخاب تشابهات از مجموعه اي از نگاشت هاي توليدي يـک تطبيق گر، بستري استدلالي را استفاده مي کنـد کـه سـطوح اطمينـان نگاشت ها را درنظرگرفته و ميان تطبيق گران اجماع نظر ميگيـرد[١٧].
فرارا[١٨]، شيوه اي فازي پيشنهاد داده است که مجموعـه هـاي کمينـه نگاشت هاي داراي برخورد را محاسبه کرده و مي تواند پايـه شـيوه هـاي اعتبارسنجي متفـاوت باشـد. روش RiMOM کـه مبتنـي بـر تئـوري تصـميم بيـزين مـيباشـد، تطبيـق آنتولـوژي را بعنـوان يـک مسـئله تصميم گيري درنظرميگيرد[٥].
براساس دانش و تحقيق صـورت گرفتـه ، تـاکنون مـدل و راهکـار پيشنهادي که براساس تئوري مجموعه هاي فازي عمل مـيکنـد بـراي بهبود کيفيت نگاشت هاي حاصل از تطبيق آنتولوژي ارائه نشده است .
ادامه مقاله بصورت زير سازماندهي شده است : بخش ٢ به توصيف واژگان ميپردازد. در بخش ٣ مساله عدم قطعيت ، بخصـوص در زمينـه تطبيق آنتولوژي، بطور خلاصه مطرح مـي شـود. همچنـين تفسـيري از عدم قطعيت بر اساس اعداد فازي ذوزنقه اي ارائه ميشود و شيوه اي بـا جزئيات بيشتر، جهت حل مساله تجميع توصـيف مـيشـود. بخـش ٤ نتايج بدست آمده و ارزيابي آنها را نشان مـيدهـد. در انتهـا، بخـش ٥ مقاله را خلاصه نموده و يک جمع بندي همراه با نگاهي به آينده دارد.
٢- تعريف مفاهيم اوليه
٢-١- آنتولوژي
هرچند واژه آنتولوژي ابتدا در حـوزه فلسـفه اسـتفاده شـد امـا امـروزه توسط محققين در زمينه هاي متعددي مانند هوش مصـنوعي، بازيـابي اطلاعات ، تئوري پايگاه داده ها، زبان شناسي و تجارت الکترونيـک مـورد استفاده قرار گرفته اسـت . تعـاريف بسـياري بـراي آنتولـوژي در حـوزه هوش مصنوعي وجـود دارد. در ميـان آنهـا، تعريـف ارائـه شـده توسـط گروبر[٦] معمول تر است که آنتولوژي را بعنـوان مشخصـه صـريحي از يـــک فهـــم معرفـــي مــيکنــد. آنتولـــوژي O پنجگانــه اي بفـــرم
(C, I, R, F, A)O= اسـت کـه C مجموعـه اي از مفـاهيم اسـت ، I
مجموعه اي از افراد يا نمونه هاست ، R مجموعـه اي از روابـط اسـت کـه روي مجموعه C تعريف شده است و F مجموعه اي از تـوابعي اسـت کـه روي مجموعه C تعريف شده است و آن يک مفهوم را بازميگرداند و A
مجموعه اي از گزاره هاست که تفسير و استفاده بجا از فرهنـگ لغـات را در بعضي دامنه هاي موردبحث محدود مي کند.
٢-٢- تطبيق آنتولوژي
تطبيق آنتولوژي سعي در برقراري روابط معنايي بين المان هاي مشـابه از آنتولوژيهاي متفاوت دارد تا قابليت تعامل را در وب معنـايي فـراهم کند. هم اکنون توسـعه تطبيـق آنتولـوژي بـه جزءاصـلي در تحقيقـات آنتولوژي مبدل شده است [١]. تطبيق آنتولوژي، زوجي آنتولـوژي را در ورودي ميگيرد و روابطي را براي مشـابهت معنـايي ايـن آنتولـوژيهـا بازميگرداند[٧].
تشابه يا نگاشت ، پنج گانه اي است به فرم <n, r ,id, e, e'> و دلالت بر آن دارد که رابطه r بين موجوديت هاي آنتولوژي e و 'e بـا اطمينـان n
وجود دارد[١]. سطح اطمينان n عـددي حقيقـي از بـازه [٠،١] اسـت .
روابط تشابه شامل روابطي از قبيل برابري، شمول و انفصال مـي باشـد.
خروجي فرآيند تطبيق آنتولوژي، همتـرازي ناميـده مـيشـود. امـروزه چالش هاي بسياري در اين زمينه تحقيقاتي وجود دارد، و نياز بـه حـل مسائلي در تطبيق (نيمه ) اتوماتيک آنتولوژيها ميباشد[٨].
٣- روش پيشنهادي
هيچ تضميني وجود ندارد که دو تطبيـق گـر، مفهـوم يکسـاني را بـراي محاسبه درجه اطمينان نگاشت ها استفاده کننـد. بطـور نمونـه ، برخـي تطبيق گران اتوماتيک آنتولوژي، از روش هاي اکتشافي يا تکنيک هـاي يادگيري ماشين استفاده ميکنند؛ همچنين از تئوري دمپستر- شـافر، شبکه هاي بيزين ، تئوري مجموعه هاي ناهموار و ... براي غلبـه بـر عـدم قطعيت بهره ميبرند[١].
در اين مقاله نگاشت ها در حضور عدم قطعيت ارزيابي مـيشـوند. بـراي ارائه عدم قطعيت در دامنه هاي کـاربردي مختلـف ، متـدهاي متفـاوتي توسطِ کلير[٩] ارائـه شـده انـد کـه بطـور خلاصـه عبارتنـد از: تئـوري مجموعه هاي کلاسيک ، تئوري احتمالات ، تئوري مجموعـه هـاي فـازي، تئوري اندازه فازي و تئوري مجموعه هاي ناهموار[٣]. تئوري مجموعه هاي فازي ميتوانـد در بـازه وسـيعي از دامنـه هـا استفاده شود که در آن اطلاعات ناکامل يـا مـبهم اسـت . در اينجـا بـه کمک تفسير فازي نگاشت ها و تعريف هـر نگاشـت بصـورت يـک عـدد فازي ذوزنقه اي، سپس استفاده از يـک شـيوه تصـميم گيـري گروهـي، تطبيق گران ترکيب ميشوند تا بر همترازيهاي متناقض و ناقص غلبـه شود. تفسير فازي يک نگاشت بيان مي کند که موجوديـت هـاي مفهـوم اول به موجوديت هاي مفهوم دوم با درجه مشخصـي تعلـق دارنـد، کـه دقيقا همان معناي توابع عضويت فازي اسـت [١٨]. درجـه عضـويت بـا توجه به شدت رابطه تشابه تعيـين مـيشـود. از شـيوه تصـميم گيـري گروهـي بـراي ترکيـب خروجـيهـاي غيرقطعـي چنـدين تطبيـق گـر آنتولوژي استفاده ميشود. در اينجا بجاي استفاده از بهترين تطبيق گر، نتايج خروجي تطبيق گران مشهور بدون هيچ گونه فرضياتي درباره آنهـا مورد استفاده قرار مي گيرند و با هم ترکيب ميشوند.
٣-١- عدد فازي ذوزنقه اي (TFN)
عدد فازي A [٢] در R(خط حقيقي) يک TFN نرمال [١٠] اسـت اگـر
تابع عضويت آن ( [٠,١] . f: R ) بصورت زير ميباشد:
يک TFN نرمال ميتواند بـا (a, b, c, d)A= نمـايش داده شـود. بـازه [b, c] بيشـترين درجـه را بـه (fA)x مـيدهـد؛ بعبـارتي بـراي ميشود که محتملتـرين مقـدار از داده مـورد ارزيابي است . a و d کران هاي پايين و بالاي بـازه مـوردنظر بـراي داده مورد ارزيابي هستند. هدف آن است که متد تجميع جديـد بـه کمـک فاصله دو عدد فازي ذوزنقه اي تعريف شود.
ِ چنگ [١١]، اعداد فازي را با استفاده از فاصله بين مرکز ثقل يک عدد فازي و نقطه مبدا رتبه بندي نمود وُ چو[١٢]، با استفاده از ناحيـه بــين آنهــا. در ايــن تحقيقــات ، مرکــز ثقــل يــک TFN نرمــال ماننــد
(a, b, c, d)A= با (x, y) نمايش داده ميشود که x مقدار روي محـور افقي و y مقدار روي محور عمودي است . اعداد حقيقي x و y با استفاده
از معادله زير قابل محاسبه اند:
TFN نرمال ، 1=w ميباشد.
٣-٢- متد تجميع
فرآيند تجميع در سه فاز تعريف ميشود:
نگاشت مقادير اطمينان توليد شده توسط هر تطبيق گـر بـه يک فضاي جديد
تبديل اعداد نگاشت شده فضاي جديد به اعداد فازي
بدست آوردن يک توافق مشترک روي نگاشت ها
از آنجايي که ابهام و عدم صراحت در همترازي تطبيـق گـران وارد شده است ، نگاشت هاي مجزا با اعداد فازي نشان داده ميشوند و مساله با تئوري مجموعه هاي فازي حل ميشود.
جهت نگاشت مقادير اطمينان توليد شده توسط هر تطبيق گر بـه يک فضاي جديد، در ابتدا نتايج خروجي تطبيق گران ، بعبارتي همترازي بدست آمده از n تطبيق گر مشهور، انتخاب مي شود. مقدار n حداقل دو مي باشد. هر يک از آنها بر طبق روش خود، مجموعه اي از نگاشت هـا را همراه با مقادير اطميناني از بازه [٠،١] توليد کرده است .
در اينجا تنها تطبيق گراني درنظر گرفته شد اند کـه همتـرازي بـا روابط برابري ارائه مي دهند. مقادير اطمينان هر تطبيـق گـر بـا ترتيـب نزولي مرتب و سپس به يک فضاي جديد در بازه [٠،١] نگاشـت مـي- شوند؛ فرض شده است که مقادير اوليه از بـازه [Min, Max] هسـتند که Min و Max، ميزان مينـيمم و ماکسـيمم بـين مقـادير اطمينـان توليدشده توسط هر تطبيق گر است . يک تناسـب سـاده رياضـي بـراي نگاشت اين مقادير به يک فضاي جديد استفاده مـيشـود. مقـادير هـر تطبيق گر مستقل از ساير تطبيق گران نگاشت ميشود؛ زيرا هر يـک از آنها مقدار مينيمم و ماکسيمم خود را دارد.
بـراي تبـديل مقـادير اطمينـان جديـد بـه اعـداد TFN، از يـک مجموعه سنجش زبـاني اسـتفاده مـيشـود. پيشـنهاد شـده اسـت کـه تصميم گيرنده از مجموعه سـنجش زبـاني ,VL, B.VL&L, L}W=
{B.L&M, M, B.M&H, H, B.H&VH, VH اسـتفاده کنـد[١٣]، که اختصارات بکار رفته و مقادير مربوطه در جدول (١) مشـخص شـده است [١٤]. هر يک از مقادير اطمينان ميتواند حداقل بـه يکـي از ايـن
TFNها متعلق باشد.
جدول (١ ) : مقادير سنجش زباني [١٤]
مرحله آغازين : براي تطبيق گر Mi، مقادير اطمينان تخمين زده
شده ، بشکل TFN مثبت نرمال بصورت زير نشان داده ميشود:
که n...2 ,١ = i انديس تطبيق گر و L...2 ,1=j انديس نگاشـت است .