بخشی از مقاله
چکیده
رتبهبندي واژگان در دستنوشتههاي بشر بر حسب ارتباطشان با موضوع نوشتار، نقش مهمی در فرایندهاي متنکاوي ایفا مینماید. واژههاي کلیدي و مرتبط با موضوع نوشتار در نواحی محدودي از آن ظاهر میشوند، در حالی که واژههاي کماهمیت و نامرتبط با هدف نوشتار توزیع مکانی تصادفی در کل متن دارند. ولی در نسخهي تصادفی هر نوشتار همهي واژهها به شکل تصادفی توزیع میشوند.
تفاوت میان توزیع یک کلیدواژه در نسخهي اصلی و تصادفی یک نوشتار معیاري مناسب براي تعیین میزان اهمیت آن کلیدواژه به دست میدهد. در این راستا به کمک روش افراز نوشتار میتوان براي توزیع مکانی هر کلیدواژه در متن احتمال تعریف نمود، و سپس با استفاده از واگرایی جنسن-شنون تفاوت میان توزیعهاي مکانی آن درنسخهي اصلی و تصادفی نوشتار را محاسبه کرد. این روش، بدون استفاده از ساختار نوشتار، به خوبی واژههاي کلیدي و کماهمیت را از هم تمییز میدهد.
مقدمه
زبان بشر یکی از مهمترین نمودهاي زبانهاي طبیعی است و ظهور آن به عنوان یک گذار در سیر تکامل مغز انسان به شمار میآید .[1] بشر زبان را به عنوان ابزاري براي ارتباط و بیان ایدههایش به کار می گیرد. مغز گنجایش محدودي براي ذخیرهي واژه ها دارد .[2] از سویی دیگر بشر نیازمند مفاهیمی بسیار زیاد براي دستیابی به ارتباط موفق است. نیاز روزافزون براي مفاهیم جدید توسط پیچیدگیهاي نحوي و روابط معنایی میان مجموعهاي محدود از واژهها و نمادها برطرف شده است.
بخش عظیمی از دانش بشر در بخش نوشتاري زبان گنجانده شده است. نوشتارها را می توان به صورت توالی نمادها در نظر گرفت. بسیاري از توالی نمادهاي طبیعی همچون زبان، موسیقی، کدهاي ژنتیک، سیگنالهاي عصبی معمولأ براي انتقال اطلاعات به کار میروند. یکی از گامهاي کلیدي در بسیاري از فرایندهاي متنکاوي مانند ترجمهي خودکار، تهیه چکیدهي نوشتار، دستهبندي اسناد، تحلیل و شناسایی نویسندهي نوشتار، استخراج واژگان کلیدي و ... رتبهبندي واژگان نوشتار بر حسب ارتباطشان با موضوع متن است.
تا کنون روشهاي گوناگونی براي رتبهبندي واژگان نوشتار ارائه شده است. لوهن به کمک تحلیل زیف، واژههاي بسیار پرتکرار و بسیار نادر را کنار گذاشت و باقی واژهها را به عنوان واژههاي مهم برگزید .[3] برخی پژوهشگران از نحوهي توزیع واژهها در نوشتار به عنوان یک ویژگی آماري براي شناسایی واژگان کلیدي بهره بردهاند .[9-4] مثلا اورتونو و همکارانش نشان دادهاند که انحراف معیار توزیع فاصلهي میان رخدادهاي متوالی واژههاي مهم بزرگتر است .[4]
براي رتبهبندي واژگان نوشتار میتوان از آنتروپی هم کمک گرفت.هررا و پوري براي کمی نمودن محتواي اطلاعات واژگان متون ساختارمند براي فراوانی نسبی آنها در بخشهاي گوناگون نوشتار توزیع احتمال تعریف کردند و برایشان آنتروپی محاسبه نمودند .[6] مهري و درونه هم براي فاصلهي نسبی میان رخدادهاي متوالی هر کلیدواژه در متن آنتروپی معرفی نمودند .[7] آنها همچنین از پارامتر نافزونوري براي رتبهبندي محتواي معنایی واژگان نوشتار بهره بردند .
[8] به تازگی یانگ و همکارانش رخداد هر کلیدواژه را در دو گروه دستهبندي نمودهاند: درون-خوشهاي و برون-خوشهاي. سپس اختلاف آنتروپی میان دو گروه را به عنوان معیاري براي شناسایی واژههاي مهم معرفی کردهاند .[9] میهالچی و همکارانش هم با استخراج گراف - شبکه - نوشتار و استفاده از معیار نوشتارتبه1 سطح معنایی واژگان در متن را رتبهبندي نمودند .[10] در این کار ما سعی داریم واژگان نوشتار را برحسب ارتباطشان به موضوع متن با استفاده از واگرایی جنسن-شنون رتبهبندي کنیم. ما با افراز نوشتار به بخشهاي کوچک و روش جعبه شماري2 براي نحوهي توزیع هر کلیدواژه در متن احتمال تعریف میکنیم. اختلاف میان توزیع فضایی یک واژه در متن اصلی و نسخهي تصادفی آن توسط واگرایی جنسن-شنون به دست میآید.
نسخهي نوشتار از بههمریختن تصادفی جایگاه واژهها به دست میآید. فرض اساسی این است که، واژگان مرتبط با موضوع نوشتار به شکل ناهمگن با الگویی خاص توزیع شدهاند تا منظور نویسنده را برسانند. این واژگان مهم در نواحی مشخصی از متن تجمع پیدا میکنند و خوشههایی را میسازند. در حالیکه واژگان دستوري و نامرتبط با موضوع نوشتار به شکل تصادفی و نسبتا یکنواخت در کل متن توزیع میشوند. در نتیجه ما انتظار داریم که توزیع مکانی واژگان کلیدي به شکل قابل توجهی در متن اصلی و نسخهي تصادفی آن با یکدیگر تفاوت داشته باشد. در مقابل، توزیع مکانی واژگان کماهمیت در هر دو نسخهي اصلی و تصادفی یکسان باشد. به عبارت دیگر، مقدار واگرایی جنسن-شنون براي واژههاي پرمحتوا بایستی بزرگتر از مقدار آن براي واژگان کممحتوا باشد.
رتبهبندي محتواي واژگان نوشتار
نویسندهها واژگان را به شیوهاي خاص در متن پخش مینمایند تا پیامشان را منتقل کنند. همانگونه که پیشتر ذکر شد، واژگان پرمحتوا که با موضوع نوشتار مرتبط هستند، در بخشهاي مشخصی از متن ظاهر میشوند تا بر هدف متن دلالت نمایند. در مقابل واژههاي کماهمیت - حرف اضافه، حرف تعریف، ... - با توجه به ضرورتهاي نگارشی به طور تصادفی و نسبتا همگن در سرتاسر متن توزیع شدهاند. ولی در نسخهي تصادفی نوشتار همهي کلیدواژهها به شکل تصادفی پخش شدهاند. در این پژوهش قصد داریم به کمک JSD اختلاف توزیع مکانی کلیدواژهها را در نسخهي اصلی یک نوشتار و نسخهي تصادفی آن به دست آورده، از آن براي شناسایی واژگان کلیدي بهره ببریم. انتظار داریم واژگان کلیدي مقدار JSD بزرگتري داشته باشند.
شکل:1 یک نمونه نوشتار به طول Lt=31 واژه که به N 4 = [31/4] = 7 بخش با طول l = 4 افراز شده است. کلیدواژهي “your” در n4 - your - = 5 بخش ظاهر شده است. بنابراین احتمال مربوط به توزیع مکانی آن هنگام افراز نوشتار به بخشهایی با طول l = 4 برابر p4 - your - = 5/7 خواهد شد. نخستین گام در این فرایند، نسبت دادن احتمال به توزیع مکانی کلیدواژهها در نوشتار است. بدین منظور نوشتار شامل Lt واژه را به Nl بخش برابر به طول l افراز میکنیم: Nl=[Lt/l] - شکل[x] . - 1 جزء صحیح x را برمیگرداند. اکنون احتمال مربوط به توزیع مکانی کلیدواژهي w چنین تعریف میشود: pl - w - =nl - w - /Nl، که در آن nl - w - شمار بخشهاي با طول l است که کلیدواژهي w را در بردارند.
نتایج و بحثها
براي ارزیابی روش رتبهبندي ارائه شده، از آن براي رتبهبندي واژگان کتاب "سرآغاز گونهها"3 اثر چارلز داروین4 به عنوان یک نوشتار بلند و مقالهي مرجع [7] به عنوان یک نوشتار کوتاه استفاده میکنیم. پس از حذف اعداد و علائم نگارشی کتاب شامل Lt=191525 واژه و Lv=8535 کلیدواژهي متمایز است و مقاله Lt=2894 واژه و Lv=625 واژهي متمایز دارد.