مقاله رتبه بندی واژگان در نوشتارهای بدون ساختار توسط واگرایی جنسن

مقاله رتبه بندی واژگان در نوشتارهای بدون ساختار توسط واگرایی جنسن - شنون

فایل pdf

4 صفحه

قیمت مقاله 000 49 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده

رتبهبندي واژگان در دستنوشتههاي بشر بر حسب ارتباطشان با موضوع نوشتار، نقش مهمی در فرایندهاي متنکاوي ایفا مینماید. واژههاي کلیدي و مرتبط با موضوع نوشتار در نواحی محدودي از آن ظاهر میشوند، در حالی که واژههاي کماهمیت و نامرتبط با هدف نوشتار توزیع مکانی تصادفی در کل متن دارند. ولی در نسخهي تصادفی هر نوشتار همهي واژهها به شکل تصادفی توزیع میشوند.

تفاوت میان توزیع یک کلیدواژه در نسخهي اصلی و تصادفی یک نوشتار معیاري مناسب براي تعیین میزان اهمیت آن کلیدواژه به دست میدهد. در این راستا به کمک روش افراز نوشتار میتوان براي توزیع مکانی هر کلیدواژه در متن احتمال تعریف نمود، و سپس با استفاده از واگرایی جنسن-شنون تفاوت میان توزیعهاي مکانی آن درنسخهي اصلی و تصادفی نوشتار را محاسبه کرد. این روش، بدون استفاده از ساختار نوشتار، به خوبی واژههاي کلیدي و کماهمیت را از هم تمییز میدهد.

مقدمه

زبان بشر یکی از مهمترین نمودهاي زبانهاي طبیعی است و ظهور آن به عنوان یک گذار در سیر تکامل مغز انسان به شمار میآید .[1] بشر زبان را به عنوان ابزاري براي ارتباط و بیان ایدههایش به کار می گیرد. مغز گنجایش محدودي براي ذخیرهي واژه ها دارد .[2] از سویی دیگر بشر نیازمند مفاهیمی بسیار زیاد براي دستیابی به ارتباط موفق است. نیاز روزافزون براي مفاهیم جدید توسط پیچیدگیهاي نحوي و روابط معنایی میان مجموعهاي محدود از واژهها و نمادها برطرف شده است.

بخش عظیمی از دانش بشر در بخش نوشتاري زبان گنجانده شده است. نوشتارها را می توان به صورت توالی نمادها در نظر گرفت. بسیاري از توالی نمادهاي طبیعی همچون زبان، موسیقی، کدهاي ژنتیک، سیگنالهاي عصبی معمولأ براي انتقال اطلاعات به کار میروند. یکی از گامهاي کلیدي در بسیاري از فرایندهاي متنکاوي مانند ترجمهي خودکار، تهیه چکیدهي نوشتار، دستهبندي اسناد، تحلیل و شناسایی نویسندهي نوشتار، استخراج واژگان کلیدي و ... رتبهبندي واژگان نوشتار بر حسب ارتباطشان با موضوع متن است.

تا کنون روشهاي گوناگونی براي رتبهبندي واژگان نوشتار ارائه شده است. لوهن به کمک تحلیل زیف، واژههاي بسیار پرتکرار و بسیار نادر را کنار گذاشت و باقی واژهها را به عنوان واژههاي مهم برگزید .[3] برخی پژوهشگران از نحوهي توزیع واژهها در نوشتار به عنوان یک ویژگی آماري براي شناسایی واژگان کلیدي بهره بردهاند .[9-4] مثلا اورتونو و همکارانش نشان دادهاند که انحراف معیار توزیع فاصلهي میان رخدادهاي متوالی واژههاي مهم بزرگتر است .[4]

براي رتبهبندي واژگان نوشتار میتوان از آنتروپی هم کمک گرفت.هررا و پوري براي کمی نمودن محتواي اطلاعات واژگان متون ساختارمند براي فراوانی نسبی آنها در بخشهاي گوناگون نوشتار توزیع احتمال تعریف کردند و برایشان آنتروپی محاسبه نمودند .[6] مهري و درونه هم براي فاصلهي نسبی میان رخدادهاي متوالی هر کلیدواژه در متن آنتروپی معرفی نمودند .[7] آنها همچنین از پارامتر نافزونوري براي رتبهبندي محتواي معنایی واژگان نوشتار بهره بردند .

[8] به تازگی یانگ و همکارانش رخداد هر کلیدواژه را در دو گروه دستهبندي نمودهاند: درون-خوشهاي و برون-خوشهاي. سپس اختلاف آنتروپی میان دو گروه را به عنوان معیاري براي شناسایی واژههاي مهم معرفی کردهاند .[9] میهالچی و همکارانش هم با استخراج گراف - شبکه - نوشتار و استفاده از معیار نوشتارتبه1 سطح معنایی واژگان در متن را رتبهبندي نمودند .[10] در این کار ما سعی داریم واژگان نوشتار را برحسب ارتباطشان به موضوع متن با استفاده از واگرایی جنسن-شنون رتبهبندي کنیم. ما با افراز نوشتار به بخشهاي کوچک و روش جعبه شماري2 براي نحوهي توزیع هر کلیدواژه در متن احتمال تعریف میکنیم. اختلاف میان توزیع فضایی یک واژه در متن اصلی و نسخهي تصادفی آن توسط واگرایی جنسن-شنون به دست میآید.

نسخهي نوشتار از بههمریختن تصادفی جایگاه واژهها به دست میآید. فرض اساسی این است که، واژگان مرتبط با موضوع نوشتار به شکل ناهمگن با الگویی خاص توزیع شدهاند تا منظور نویسنده را برسانند. این واژگان مهم در نواحی مشخصی از متن تجمع پیدا میکنند و خوشههایی را میسازند. در حالیکه واژگان دستوري و نامرتبط با موضوع نوشتار به شکل تصادفی و نسبتا یکنواخت در کل متن توزیع میشوند. در نتیجه ما انتظار داریم که توزیع مکانی واژگان کلیدي به شکل قابل توجهی در متن اصلی و نسخهي تصادفی آن با یکدیگر تفاوت داشته باشد. در مقابل، توزیع مکانی واژگان کماهمیت در هر دو نسخهي اصلی و تصادفی یکسان باشد. به عبارت دیگر، مقدار واگرایی جنسن-شنون براي واژههاي پرمحتوا بایستی بزرگتر از مقدار آن براي واژگان کممحتوا باشد.

رتبهبندي محتواي واژگان نوشتار

نویسندهها واژگان را به شیوهاي خاص در متن پخش مینمایند تا پیامشان را منتقل کنند. همانگونه که پیشتر ذکر شد، واژگان پرمحتوا که با موضوع نوشتار مرتبط هستند، در بخشهاي مشخصی از متن ظاهر میشوند تا بر هدف متن دلالت نمایند. در مقابل واژههاي کماهمیت - حرف اضافه، حرف تعریف، ... - با توجه به ضرورتهاي نگارشی به طور تصادفی و نسبتا همگن در سرتاسر متن توزیع شدهاند. ولی در نسخهي تصادفی نوشتار همهي کلیدواژهها به شکل تصادفی پخش شدهاند. در این پژوهش قصد داریم به کمک JSD اختلاف توزیع مکانی کلیدواژهها را در نسخهي اصلی یک نوشتار و نسخهي تصادفی آن به دست آورده، از آن براي شناسایی واژگان کلیدي بهره ببریم. انتظار داریم واژگان کلیدي مقدار JSD بزرگتري داشته باشند.

شکل:1 یک نمونه نوشتار به طول Lt=31 واژه که به N 4 = [31/4] = 7 بخش با طول l = 4 افراز شده است. کلیدواژهي “your” در n4 - your - = 5 بخش ظاهر شده است. بنابراین احتمال مربوط به توزیع مکانی آن هنگام افراز نوشتار به بخشهایی با طول l = 4 برابر p4 - your - = 5/7 خواهد شد. نخستین گام در این فرایند، نسبت دادن احتمال به توزیع مکانی کلیدواژهها در نوشتار است. بدین منظور نوشتار شامل Lt واژه را به Nl بخش برابر به طول l افراز میکنیم: Nl=[Lt/l] - شکل[x] . - 1 جزء صحیح x را برمیگرداند. اکنون احتمال مربوط به توزیع مکانی کلیدواژهي w چنین تعریف میشود: pl - w - =nl - w - /Nl، که در آن nl - w - شمار بخشهاي با طول l است که کلیدواژهي w را در بردارند.

نتایج و بحثها

براي ارزیابی روش رتبهبندي ارائه شده، از آن براي رتبهبندي واژگان کتاب "سرآغاز گونهها"3 اثر چارلز داروین4 به عنوان یک نوشتار بلند و مقالهي مرجع [7] به عنوان یک نوشتار کوتاه استفاده میکنیم. پس از حذف اعداد و علائم نگارشی کتاب شامل Lt=191525 واژه و Lv=8535 کلیدواژهي متمایز است و مقاله Lt=2894 واژه و Lv=625 واژهي متمایز دارد.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/102607

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله رتبه بندی واژگان در نوشتارهای بدون ساختار توسط واگرایی جنسن - شنون

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله تبیین روابط بین ساز و کارهای راهبری شرکتی بر همگرایی و واگرایی ارزش افزوده اقتصادی و ثروت ایجاد شده برای سهامداران

دانلود مقاله تبیین روابط بین ساز و کارهای راهبری شرکتی بر همگرایی و واگرایی ارزش افزوده اقتصادی و ثروت ایجاد شده برای سهامداران

تبیین روابط بین ساز و کارهای راهبری شرکتی بر همگرایی و واگرایی ارزش افزوده اقتصادی و ثروت ایجاد شده برای سهامداران

دانلود مقاله تبیین روابط بین ساز و کارهای راهبری شرکتی بر همگرایی و واگرایی ارزش افزوده اقتصادی و ثروت ایجاد شده برای سهامداران

دانلود مقاله عوامل همگرایی و واگرایی در منطقه خلیج فارس

دانلود مقاله مقایسه واژگان فارسی دانشآموزان دبستانی با واژگان استفاده شده در کتابهای درسی و غیردرسی

مقاله مقایسه واژگان امروزی با واژگان پیشین مواد اولیه رنگ کننده لعاب ها در دوران اسلامی ایران

مقاله بین الملل و هم گرایی ها و واگرایی های آن در گفتمان تعامل گرایی ضد نظام سلطه

مقاله تاثیر حضور قدرتهای فرامنطقه ای در واگرایی کشورهای ساحلی

مقاله تبیین واژگان قرآن توسط صادقین علیهم سلام در روایات تفسیری اهل سنت

مقاله تبیین واژگان قرآن توسط صادقین علیهم سلام در روایات تفسیری اهل سنت

مقاله تطبیق واژگان زبان ترکی آذربایجانی با واژگان زبانهای فارسی و انگلیسی بر اساس فهرست آمار واژگانی

مقاله تحلیل مولفه های ژئوپلیتیکی تأثیرگذار بر وقوع بحران منا و اثرات آن در واگرایی جهان اسلام

مقاله تحلیل گفتمان نوسازی و واگرایی سیاست های توسعه کشاورزی و روستایی ( تاملی بر بازساخت مفهوم روستا بودگی در فرآیند برنامه های توسعه در ایران )

مقاله توهین به مقدسات سایر مسلمانان و آثار آن در واگرایی امت اسلام

مقاله رتبه بندی تکنیک های تصمیم گیری چند شاخصه مبتنی بر کیفیت رتبه بندی آنها با به کار گیری مدل تخصیص بُردا

مقاله رتبه بندی واحدهای تصمیم گیرنده گروه بندی شده توسط روش ارزیابی کارایی تقاطعی

مقاله شناسایی و رتبه بندی عوامل موثر در رتبه بندی شبکه فروش بر فروش نمایندگان جنرال

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله رتبه بندی واژگان در نوشتارهای بدون ساختار توسط واگرایی جنسن - شنون

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله تبیین روابط بین ساز و کارهای راهبری شرکتی بر همگرایی و واگرایی ارزش افزوده اقتصادی و ثروت ایجاد شده برای سهامداران

دانلود مقاله تبیین روابط بین ساز و کارهای راهبری شرکتی بر همگرایی و واگرایی ارزش افزوده اقتصادی و ثروت ایجاد شده برای سهامداران

تبیین روابط بین ساز و کارهای راهبری شرکتی بر همگرایی و واگرایی ارزش افزوده اقتصادی و ثروت ایجاد شده برای سهامداران

دانلود مقاله تبیین روابط بین ساز و کارهای راهبری شرکتی بر همگرایی و واگرایی ارزش افزوده اقتصادی و ثروت ایجاد شده برای سهامداران

دانلود مقاله عوامل همگرایی و واگرایی در منطقه خلیج فارس

دانلود مقاله مقایسه واژگان فارسی دانشآموزان دبستانی با واژگان استفاده شده در کتابهای درسی و غیردرسی

مقاله مقایسه واژگان امروزی با واژگان پیشین مواد اولیه رنگ کننده لعاب ها در دوران اسلامی ایران

مقاله بین الملل و هم گرایی ها و واگرایی های آن در گفتمان تعامل گرایی ضد نظام سلطه

مقاله تاثیر حضور قدرتهای فرامنطقه ای در واگرایی کشورهای ساحلی

مقاله تبیین واژگان قرآن توسط صادقین علیهم سلام در روایات تفسیری اهل سنت

مقاله تبیین واژگان قرآن توسط صادقین علیهم سلام در روایات تفسیری اهل سنت

مقاله تطبیق واژگان زبان ترکی آذربایجانی با واژگان زبانهای فارسی و انگلیسی بر اساس فهرست آمار واژگانی

مقاله تحلیل مولفه های ژئوپلیتیکی تأثیرگذار بر وقوع بحران منا و اثرات آن در واگرایی جهان اسلام

مقاله تحلیل گفتمان نوسازی و واگرایی سیاست های توسعه کشاورزی و روستایی ( تاملی بر بازساخت مفهوم روستا بودگی در فرآیند برنامه های توسعه در ایران )

مقاله توهین به مقدسات سایر مسلمانان و آثار آن در واگرایی امت اسلام

مقاله رتبه بندی تکنیک های تصمیم گیری چند شاخصه مبتنی بر کیفیت رتبه بندی آنها با به کار گیری مدل تخصیص بُردا

مقاله رتبه بندی واحدهای تصمیم گیرنده گروه بندی شده توسط روش ارزیابی کارایی تقاطعی

مقاله شناسایی و رتبه بندی عوامل موثر در رتبه بندی شبکه فروش بر فروش نمایندگان جنرال

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران