مقاله شناسایی ماکزیمم کلمات پرتکرار برای زبان های گوناگون

فایل pdf

11 صفحه

قیمت مقاله 000 49 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده :

یکی از چالشهای موجود بر سر راه شناسایی کلمات پرتکرار، وجود زبانهای بسیار متنوع برای اطلاعات متنی و وابستگی روشهای موجود شناسایی کلمات پرتکرار به نوع زبان و ساختار کلامی آن زبان خاص میباشد. لذا هدف این پژوهش، طراحی الگوریتمی مستقل از زبان به منظور شناسایی کلمات پرتکرار میباشد. از این رو با تمرکز روی خاصیت تکرار کلمات در هر متن و نسبت تکرار آن در سایر متون این امر انجام شده ا ست و در نهایت ماکزیمم بی شترین تکرار به عنوان کلمه پرتکرار انتخاب میگردد. عملکرد الگوریتم پی شنهادی نیز تو سط معیار نرخ دقت ت شخیص مورد ارزیابی قرار گرفته ا ست. لازم به ذکر ا ست که این الگوریتم با الگوریتم مبتنی بر گراف مقای سه گردیده ا ست، که نرخ دقت کلی الگوریتم پیشنهادی %82,2درصد بوده است.

-1 مقدمه

یکی از شاخههای تحقیقاتی کارکرد فنآوری اطلاعات در تجارت اطلاعات، طراحی سیستمهای بازیابی اطلاعات از پایگاه دادههای بزرگ میباشد. امروزه با افزایش حجم اطلاعات به زبانهای مختلف در وب، تقاضا برای سیستمهای بازیابی اطلاعات که بتوانند از مرز بین زبانها عبور کنند، رشد فزایندهای داشته است.[1 -4] لذا با افزایش حجم اطلاعات الکترونیکی با زبانهای گوناگون، بازیابی اطلاعات، مستقل از زبان ا سناد اهمیت ویژه و م ضاعفی پیدا کرده ا ست. شنا سایی کلمات مهم مؤثر، یک کار زمان بر و مبتنی بر پردازش ان سان میباشد. اخیراً شنا سایی اتوماتیک کلمات به خ صوص شنا سایی کلمات پرتکرار به گونه ای که م ستقل از زبان با شد زمینه جالبی در تحقیقات Text Mining و بازیابی اطلاعات به وجود آورده است.[5-8 ,3]

روشهای مختلفی در شناسایی و استخراج کلمات پرتکرار تاکنون ارائه شده که میتوان براساس مشترکات آنها، آنان را در دو گروه روشهای بانظارت و روشهای بدون نظارت دستهبندی کرد .[9-14] در ادامه به صورت خلاصه به مرور تحلیلی روشهای ارائه شده، جهت شنا سایی چالشهای احتمالی تحقیق میپردازیم. برای راحتی کار در طی این مقاله از کلمات کلیدی به جای کلمات پرتکرار ا ستفاده شده ا ست. اولین گروه روشهای با نظارت میبا شند در این روشها، یک مجموعه داده آموز شی وجود دارد که با یادگیری از آنها، مدلی ساخته میشود و با به کار بردن این مدل بر روی سند جدید، عبارات آن به دو کلاس عبارات کلیدی و غیرکلیدی دسته بندی میشوند.

روشهایی همچون تورنی[15-17 ,3] ، [20-18 ,3]KEA، هالس[21-23] و وان[25 ,24] از جمله این گونه از روشهای استخراج کلمات کلیدی ه ستند. کارایی این روش ب سیار واب سته به دادههای آموز شی ا ست و عدم وجود دادههای آموز شی باکیفیت منجر به افت کارایی سی ستم استخراج عبارات کلیدی می شود. رویکرد دیگر در استخراج کلمات کلیدی مربوط به روش های بدون نظارت همچون لیو[26 ,22 ,3]، روش تارائو [27-30]، براسول [32 ,31 ,15 ,3] و روش بری [34 ,33] می باشند.

در روشهای بدون نظارت نیاز به دادههای آموزشی نیست و با کمک استراتژیهای رتبه دهی ،مهمترین عبارات داخل متن استخراج میشوند. این روشها برخلاف روشهای با نظارت برای هر متنی از هر نوع دامنهای، کاربرد دارد و به صورت مستقل از دامنه کاربرد عمل میکند. با تحلیل و مقایسه کیفی روشهای ارائه شده، مزایا و معایبی برای هر گروه از روشها یافت میشوند که بصورت خلاصه اینگونه جمع بندی شوند. اولین مزیت پیادهسازی روشهای بدون نظارت، کاربرد آنها در پیاده سازی بر روی مدلهای ساخته شده برای هر نوع متنی با هر دامنهای میباشد.

عدم افت کیفیت کارایی اینگونه از روشها در صورت وجود دادههای بی کیفیت، عدم وابستگی به دادههای آموزشی، کمتر بودن زمان صرف شده برای استخراج کلمات کلیدی نسبت به روشهای بانظارت، کاربرد مفید برای دادههایی با حجم بالا و توجه به معیار دقت از جمله مزایای دیگر روشهای بدون نظارت میباشند. در مقابل این مزایا، از دشواری تطبیق دقیق کلمات در اینگونه روشها به عنوان اصلی ترین عیب قابل لمس می توان یاد کرد.

همانطور که در پاراگراف قبل توضیح داده شده مزایا و معایبی برای روشهای با نظارت وجود دارد که از آن جمله میتوان به وجود دادههای آموز شی با کیفیت د سته بندی دادهها به طور منظم ا شاره کرد. و اما از معایب این روش این ا ست که کارایی واب سته به دادههای آموز شی است، عدم وجود دادههای آموزشی با کیفیت منجر به افت کارایی سیستم استخراج کلمات کلیدی میشود، مدل ساخته شده مختص یک دامنه ا ست، مدل ساخته شده واب سته به دامنه کاربرد عمل میکند، فراهم کردن دادههای آموز شی کار زمان بر و م شکلی ا ست، ارزیابی بر اساس فراوانی انجام میگیرد، برای دادههایی با حجم زیاد کاربرد ندارد.

از جمله چالشهای موجود در این روش این است که برای فراهم کردن دادههای آموز شی نیاز به زمان زیاد ا ست و اگر دادههای آموز شی منا سبی تهیه نگردد، الگوریتم با م شکل مواجه می شود و کارایی پایینی دارد، اما در روش بدون نظارت با این چالش مواجه نیست.[33 ,21 ,13 ,10 ,3 ,1] بنابراین برای الگوریتم پیشنهادی از این روش بدون نظارت استفاده میکنیم. هدف اصلی این پژوهش ارائه الگوریتمی برای استخراج کلمات به صورت مستقل از زبان می باشد که به منظور تحقق این هدف، با تمرکز بر روی ویژگی تکرار و توالی کلمات در متن و حذف حروف رابط، ا ضافی و افعال، تلاش شده ا ست الگوریتمی م ستقل از زبان سند طراحی گردد که بصورت مبسوط به آن پرداخته شده است.

به منظور نیل به اهداف تحقیق و ایجاد مناسب مقدمات و مأخرات آن، ساختار این مقاله اینگونه تدوین میگردد. در بخش بعدی فراخوانی اطلاعات، ساختار متن و اطلاعات ذخیره شده، کلمات کلیدی و غیر کلیدی توضیح داده شده است. در بخش سوم این مقاله الگوریتم مستقل از زبان توضیح داده شده است.نتایج بدست آماده و ارزیابی این نتایج در بخش چهارم صورت پذیرفته و در نهایت در قسمت آخر نتیجه گیری و ارائه پیشنهادات بیان گردیده است.

-2 مسئله شناسایی کلمات پرتکرار

بازیابی اطلاعات بطور گسترده در زندگی روزمره مورد استفاده قرار میگیرد. آنجه برای طراحان سیستم های بازیابی اطلاعات از اهمیت بالایی برخوردار ا ست، افزایش کارایی و بهبود عملکرد این سی ستمها در بازیابی اطلاعات میبا شد. همانگونه که ا شاره شد یکی از راههای افزایش بهره وری سی ستمهای بازیابی اطلاعات ا ستفاده از طرحهای آماری میبا شد. در این طرح ها به کلمات پرتکرار یک فرکانس ن سبت داده میشود، بر اساس آن کلمات با بالاترین فرکانس به عنوان کلمات پرتکرار انتخاب میشوند..[5 -8 ,3]

یکی از مشکلات بازیابی اطلاعات وجود زبان های گوناگون و حجم انبوه اطلاعات می باشد. که برای حل این مشگل الگوریتمها ی مستقل از زبان با حجم انبوه اطلاعات ارائه شده ا ست. با ا ستفاده از این الگوریتم ها، با بهرهگیری از الگوریتم های آماری می توان به این مهم د ست یافت. با مطالعه و برر سی کاربردهای بازیابی اطلاعات و متن کاوی م شخص می شود که کلمات مهم و پرتکرار موجود در متن، نقش ب سیار مهمی در این کاربردها دا شته و م سیر حرکت را در این زمینه ت سهیل میکند، به عنوان مثال با یافتن کلمات مهم موجود در اخبار و یافتن جملاتی که کلمات مهم بی شتری دارند، می توان با ا ستخراج آن جملات به خلا صه متن و درک بهتر متن د ست یافت.

با توجه به این که کلمات مهم اغلب در تیترها و بخشهای مهم یافت می شوند، بنابراین با م شخص نمودن ساختار متن و ا ستخراج کلمات مهم ازاین بخشها میتوان با حداقل زمان به آن کلمات دست یافت.[5-8 ,3] فید - - Rss، برای خواندن اخبار از فید یا آر اس اس آنها ا ستفاده شده ا ست که خبر را با ساختار XML و به صورت ساخت یافته در اختیار ما قرار میدهد.استفاده از دادههای ساخت یافته باعث میشود تا موتورهای جستجو بتوانند نتایج جستجو را مرتبسازی کرده و کیفیت جستجو را بالا ببرند .قالب خواندن و ذخیره اخبار به زبانهای گوناگون، قالب یونیکد بوده است.

برای استخراج کلمات کلیدی از متون اخبار ما به سایتهایی نیاز است که دارای آدرس فیدهای مناسب و معتبری باشند. به همین دلیل فیدهایی انتخاب میشوند که اطلاعات مناسبی را در اختیار قرار دهند. البته این فیدها برای هر زبانی انتخاب میشوند. اطلاعات پس از فراخوانی از فیدها در داخل دیتابیس ذخیره می گردند.بعضی از کلمات در همهی متون با فراوانی زیاد وجود دارندکه ارزش محتوایی ندارند، مثل ضمایر، قیود، حروف اضافه و ربط وبعضی از افعال پر تکرار به این کلمات، کلمات عمومی گفته میشود. با حذف کلمات عمومی در متن کاوی آماری میزان محاسبات کم شده و کارآیی نیز بیشترمیشود. به لغات یک وزن بر اساس فراوانی آن در سند داده میشود[5-8 ,3]

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/109456

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله شناسایی ماکزیمم کلمات پرتکرار برای زبان های گوناگون

بخشی از مقاله

چرا مگ ایرانز؟

دانلود تحقیق تأثیر تبلیغات بازرگانی در عصر ارتباطات برای کالاهای گوناگون

نمونه هایی از کلمات مخفف در زبان فارسی . . .

دانلود فایل پاورپوینت کلمات الهام بخش زندگی

مقاله استخراج وشناسایی کلمات دست نویس با استفاده از شبکه های عصبی مصنوعی و منطق فازی

مقاله تاثیر تقویت مهارت نوشتاری دیکته با تکیه بر تلفظ درست کلمات در یادگیری زبان فارسی برای زبان آموزان چینی زبان

مقاله تعیین بخش های مهم در شکل زیر - کلمات چاپی

مقاله ترکیب شبکه های عصبی بر اساس آموزش یادگیری با همبستگی منفی در بازشناسی کلمات دستنویس فارسی

مقاله تشخیص وبسایت های صیاد با استفاده از فاصله لِوِن اِشتاین فراوان ترین کلمات با دامنه صفحه

مقاله روش ترکیبی مقاوم مبتنی برمنطق فازی برای ردیابی نقطه توان ماکزیمم سیستم های فتوولتاییک

مقاله رتبه‌بندی صفحات وب با استفاده از ارتباط معنایی و وزن کلمات

مقاله ردیابی نقطه ماکزیمم توان در توربین بادی سرعت متغیر مبتنی بر ژنراتور سنکرون مغناطیس دائم از طریق کنترل مد لغزشی گشتاور ماکزیمم

مقاله ساخت مفسر زبان و محیط یکپارچه توسعه برای زبان جبر رابطه ای نماد گذاری کتاب C . J . Date به زبان javascript

مقاله ردیابی نقطه ی توان ماکزیمم برای سیستم های فتوولتائیک با استفاده از روش هیبریدی

مقاله ردیابی نقطه ماکزیمم توان با استفاده از ساختار اینورتر منبع امپدانس موازی برای سیستمهای فتوولتاییک متصل به شبکه

مقاله روش ترکیبی جدید مبتنی بر منطق فازی برای ردیابی نقطه توان ماکزیمم سیستم های فتوولتاییک

مقاله شبکه ارتباطی زبان ها و ظهور زبان جهانی ( مطالعه موردی نگرش مدرسان زبان انگلیسی به منابع درسی آموزش زبان )

مقاله طراحی و ساخت یک لیزر TEA CO2 پرتکرار با جریان عرضی تند

مقاله طراحی یک نظام هوشمند جهت بررسی صحت املایی کلمات متون خبری زبان فارسی

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله شناسایی ماکزیمم کلمات پرتکرار برای زبان های گوناگون

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود تحقیق تأثیر تبلیغات بازرگانی در عصر ارتباطات برای کالاهای گوناگون

نمونه هایی از کلمات مخفف در زبان فارسی . . .

دانلود فایل پاورپوینت کلمات الهام بخش زندگی

مقاله استخراج وشناسایی کلمات دست نویس با استفاده از شبکه های عصبی مصنوعی و منطق فازی

مقاله تاثیر تقویت مهارت نوشتاری دیکته با تکیه بر تلفظ درست کلمات در یادگیری زبان فارسی برای زبان آموزان چینی زبان

مقاله تعیین بخش های مهم در شکل زیر - کلمات چاپی

مقاله ترکیب شبکه های عصبی بر اساس آموزش یادگیری با همبستگی منفی در بازشناسی کلمات دستنویس فارسی

مقاله تشخیص وبسایت های صیاد با استفاده از فاصله لِوِن اِشتاین فراوان ترین کلمات با دامنه صفحه

مقاله روش ترکیبی مقاوم مبتنی برمنطق فازی برای ردیابی نقطه توان ماکزیمم سیستم های فتوولتاییک

مقاله رتبه‌بندی صفحات وب با استفاده از ارتباط معنایی و وزن کلمات

مقاله ردیابی نقطه ماکزیمم توان در توربین بادی سرعت متغیر مبتنی بر ژنراتور سنکرون مغناطیس دائم از طریق کنترل مد لغزشی گشتاور ماکزیمم

مقاله ساخت مفسر زبان و محیط یکپارچه توسعه برای زبان جبر رابطه ای نماد گذاری کتاب C . J . Date به زبان javascript

مقاله ردیابی نقطه ی توان ماکزیمم برای سیستم های فتوولتائیک با استفاده از روش هیبریدی

مقاله ردیابی نقطه ماکزیمم توان با استفاده از ساختار اینورتر منبع امپدانس موازی برای سیستمهای فتوولتاییک متصل به شبکه

مقاله روش ترکیبی جدید مبتنی بر منطق فازی برای ردیابی نقطه توان ماکزیمم سیستم های فتوولتاییک

مقاله شبکه ارتباطی زبان ها و ظهور زبان جهانی ( مطالعه موردی نگرش مدرسان زبان انگلیسی به منابع درسی آموزش زبان )

مقاله طراحی و ساخت یک لیزر TEA CO2 پرتکرار با جریان عرضی تند

مقاله طراحی یک نظام هوشمند جهت بررسی صحت املایی کلمات متون خبری زبان فارسی

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران