مقاله تحلیل آماری واژههای فارسی مقالات علوم انسانی بر مبنای قانون زیف

فایل pdf

9 صفحه

قیمت مقاله 000 49 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

در پی کمبود ابزارهاي ابتدایی پردازش زبان طبیعی فارسی و نیاز روزافزون به برنامههاي ماشینی مبتنی بر زبان طبیعی، با مطالعه و اثبات تابعیت زبان فارسی از قوانین زبانشناسی کَمّی، میتوان بین زبانهاي برنامهنویسی و زبانهاي طبیعی پل ارتباطی ایجاد کرد. قانون زیف از جمله قوانینی است که در زبانشناسی کمی، در عین سادگی میتواند نقشی مهمی در پردازش زبان طبیعی فارسی ایفا کند. چرا که با استفاده از نتایج و گزارشهاي حاصل از این تحلیل، میتوان برنامهها و ابزارهاي پردازش زبان طبیعی را به گونهاي اصولیتر ساخت. در پژوهش حاضر پیکرهاي کوچک مقیاس، ساخته شد و سطح قابل قبولی از پیش پردازش با رویکردي زبانشناسانه بر روي آن اجرا و سپس قانون زیف بر روي آن پیاده سازي و بردار و نمودارهاي زیف آن رسم شد. به منظور اعتبارسنجی از ضریب همبستگی پیرسون ما بین بسامدهاي تخمینی و واقعی استفاده شد. همچنین بردارهاي ر سم شد با بردارهاي زیف پیکرههاي دیگر به زبان انگلی سی که از این قانون پیروي میکنند مقای سه شد. نتیجه حاصل، تبعیت زبان فارسی از این قانون بود. واژههاي کلیدي: قانون زیف، پیکرههاي زبانی، آمار، بسامد، زبان فارسی

-1 مقدمه

در سال 1935 زبان شناس آمریکایی جورج کینگزلی زیف1 درﯾﺎﻓﺖ که در زبان طبیعی، میان طول کلمات و میزان ب سامد آنها ارتباط معکوسی وجود دارد. یکی از نظریات مطرح در رفتار انسان، اصل کمترین کوشش زیف است که در سال 1949 ارائه شد. این اﺻﻞ حاکی از آن است که انسان تمایل دارد در حل یک مسأله راهی را برگزیند که کمترین تلاش را نیاز دارد. کانوال2، اسمیت3، کول برستون4 و کربی[1] - 2017 - 5 اذعان دارند که زیف مشاهدات کلاسیک را در خصوص با رابطه ﺑﯿﻦ طول ﮐﻠﻤﻪ و بسامد آن ارائه و بیان کرد که یک کلمه با بسامد بیشتر، طول کمتري دارد و همچنین ادعا کرد، این »قانون اختصار« یک ویژگی ساختاري جهانی زبان ا ست. از آن زمان قانون اخت صار در طیف گ ستردهاي از زبانهاي ان سانی اثبات شده ا ست و به سی ستمهاي ارتباطی حیوانات و حتی زبانهاي برنامهنویسی ﮐﺎﻣﭙﯿﻮﺗﺮي نظیر جاوا اسکریپت6 و سیپلاسپلاس7 گسترش یافته است. مشاهده شده است که توزیع بسامد در موسیقی، جمعیت شهري، اﻧﻘﺮاض، زلزله و حتی دياناي8 نیز براساس قانون زیف است و این توزیع به عنوان محیطهاي زیفی9 شناخته می شود. .مشاهداتکمّی و مدلهاي ریاضی اولیهي در حوزهي واژگان توسط استوپ - 1916 - ، یول - - 1924 و کاندن - 1928 - انجام گرفت. اما جرج کینگلی زیف - 1902-1950 - بود که رابطه بین کلمات و میزان ب سامد را بهطور قانونمند برر سی کرد. او نخ ستین ک سی بود که یک مدل نظري براي تو ضیح این روابط یافت و در این رابطه یک فرمول ریا ضی ارائه کرد که به » قانون زیف… شهرت یافت.

در این پژوهش هدف، برر سی آماري واژگان زبان فار سی برا ساس قانون زیف میباشد و ا سا ساً این نتیجه مدنظر ا ست که آیا این قانون بر روي زبان فار سی نیز حاکم ا ست یا خیر؟ اما این مهم زمانی به در ستی نتیجه خواهد داد که دادهها پیشپردازش شده و نرمال باشند و چالشهاي موجود تا حد امکان در نظرگرفته شوند. برر سی تاریخچه پژوهش ن شان میدهد که پژوه شگران ب سیاري به تحلیل زبانهاي مختلف برا ساس ا صل قانون زیف پرداختهاند. براساس این پژوهشها، قانون زیف بر روي بیشتر زبانها نظیر انگلیسی، فرانسه، یونانی، رومی، آلمانی و ... قابل اعمال است.[1] این خود نقطه الهام بخ شی بود که بتوان با ا ستفاده از قانون زیف در علوم زبانی و رایانهاي، پلی ایجاد کرد و شبیه سازي زبان طبیعی براي سیستمها و ماشینها را انجام داد.

از آنجا که زبان شنا شی رایان شی ر شتهاي نوپا در زبان فار سی ا ست، انجام پردازشهاي سی ستمی براي این زبان از این منظر بسیار کم است. در پژوهش پیشرو سعی بر این است که تابعیت زبان فارسی از قانون زیف که یکی از قانونهاي پایدار و مبنایی در تحلیلهاي آماري است مطالعه و اثبات شود چرا که براساس نتایج گزارشهاي این تحلیل، میتوان برنامهها و ابزارهاي پردازش زبان طبیعی را اصولیتر ساخت. پس میتوان گفت که این اقدام گام نخستی براي پردازش زبان طبیعی به حساب میآید. زیرا متون زبانی براي سی ستمی و ما شینخوان شدن باید مراحل پرفراز و ن شیبی را طی کنند، که مهمترین آنها پیش پردازش ا ست که به دلیل رسمالخط متفاوت از انگلیسی، ننوشته شدن مصوتهاي کوتاه در فارسی و وجود نیمفاصله که مرزبندي بسیار چالش برانگیز در زبان فار سی به وجود میآورد از اهمیت بالایی برخوردار ا ست. با ا ستناد بر درودي10 و دیگران [2] - 2004 - در ساخت پیکرههاي مدرن فارسی براي یکدست کردن پیکره، به قانون زیف نیاز است. در این پژوهش زبان فارسی را براساس تعداد حروف کلمات بررسی کردهاند. با توجه به نتایج و جداول آورده شده به نظر میرسد که نرمالسازي به خوبی اعمال نشده است و درمواردي همچون »ها« و »هاي« به عنوان واژههاي به ترتیب دو حرفی و سه حرفی یاد شدها ست، درحالی که به تنهایی معناي م ستقلی را نمیرسانند و واژه محسوب نمی شوند و در طبقه پسوندهاي صرفی قرار دارند. براي محقق شدن این هدف به مراحل پیشپردازش نیاز ا ست که ابتدایی ترین آنها نرمال سازي ا ست. بدین گونه که فا صلهي بین پ سوندها و پی شوندهاي صرفی یا حتی ا شتقاقی به نیمفاصله تغییر پیدا کنند. در پژوهش پیشرو سعی بر آن شد که نرمالسازي بر روي دیتاهایی که پیکره حاضر را ساختهاند انجام شود.

با استفاده از این تحلیل آماري، فهرستی از واژههاي پرکاربرد که در بیشتر حالات، کم اهمیتترین واژههاي یک متن را تشکیل میدهند به دست میآید که این خود در اکثر سطوح پردازش زبان طبیعی حائز اهمیت است. زیرا با حذف واژههايمانع و توجه به واژگان کلیدي به منظور بازیابی اطلاعات، رسیدن به هدف سریعتر و با دقت بیشتري انجام خواهد پذیرفت. از جمله پژوهشهاي انجام شده بر روي زبانهاي مختلف میتوان از زبان عربی که داراي الفبا و ر سمالخط نزدیک به زبان فار سی است نام برد. در این راستا ﻣﻘﺎﻻت عبدالعلی11، کوي12 و سلیمان[3] - 2005 - 13 گودر14 و دي رووك[4] - 2001 - 15 در زبان عربی قابل ذکر است که در وهلهي نخست به نرمالسازي و تنظیم مجدد پیکره براي آمادهسازي و استفاده در نرمافزارهاي آماري پرداختهاند و دوم آن را با زبان انگلیسی مقایسه کرده و به بررسی چالشهاي زبان عربی پرداختهاند. در فارسی نیز هاشمزاده، نخعی و مراديمقدم [5] - 1392 - ، مهدوي نسب [6] - 1392 - ، ترابی [7] - 1389 - ، غرويقوچانی - [8] - 1385، درودي، حجازي و ارومچیان [2] - 2004 - ، تقییاره، درودي، ارومچیان و انگشتري [9] - 2003 - و مهري16 و جماعتی[10] - 2017 - 17 از این قانون نیز استفاده کردهاند و به بررسی دادگان فارسی پرداختهاند اما در هرکدام خلاء عدموجود نرمال سازي و پیشپردازش متن فارسی وجود دارد و چالشهاي زبان فارسی مورد توجه قرار نگرفتهاست.

از ﺟﻤﻠﻪ زﺑﺎنﻫﺎﯾﯽ که قانون زیف در آن بررسی شده است زبان ماندارین چینی است. با استناد بر لین لیو18، ژانگ19، گنگ20، لینگ لایی21 و وانگ[11] - 2017 - 22 نوی سههاي چینی واحدهاي پایهاي براي کلمات چینی ه ستند و یک کلمه ﭼﯿﻨﯽ میتواند شامل یک، دو یا چند کاراکتر باشد. بسیاري از کاراکترها میتوانند به عنوان کلمات در زبان چینی عمل کنند. واژههایی که شامل نویسههاي دوتایی، سهتایی و بیشتر میشوند، به عنوان بایگرم، ترایگرم و به طور کلی n-gram نامگذاري میشوند. در زبان چینی واژهها را با فاصله مانند زبان انگلیسی جدا نمیکند، بنابراین یک خواننده باید یک رشته کاراکتر را به کلمات تبدیل کند تا متنهاي چینی را درك کند. ماندارین چینی طی هزاران سال گذشته تکامل یافته است. اسناد نوشته شده در زبان چینی در حال حاضر شامل تعداد زیادي بایگرم و ترایگرم ا ست در حالی که متون کلا سیک چینی تعداد ب سیار زیادي یونیگرم را شامل می شود. در پژوهشهاي پیشین بر روي زبان چینی اساساً بر روي تطبیق توزیع زیفی بر پیکرههاي چینی تمرکز شده است. نتیجه بدست آمده از نمودارها و منحنیهاي زبان چینی، تطابق آنها با نمودارها و منحنیهاي زیف بود. اینکه این قانون یک قانون جهانی است و بر روي بیشتر زبانها قابل اعمال است را میتوان از پژوهش بنتز23 و فررکانچو24 [12] - 2016 - دریافت. آنها قانون اختصاري زیف را در تمام 1263 متن و 986 زبان مورد آزمایش قرار دادهاند. قدرت قانون نیازمند توضیح نظري است و این موضوعاساساً مهم است، زیرا میتواند دریچه جدیدي در بحث در مورد جهانیهاي زبان باز کند. زیرا در ادامه میتوان به وجود خواص جهانی زبان دست یافت. با این حال، ممکن است که جهانیهاي زبان از اصول اساسی انتقال اطلاعات، به جاي زبان و تعصبات خاص انسان، بدست آید.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/65558

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله تحلیل آماری واژههای فارسی مقالات علوم انسانی بر مبنای قانون زیف

بخشی از مقاله

چرا مگ ایرانز؟

دانلود مقاله ارزیابی مجلات علمی - پژوهشی دانشگاههای علوم پزشکی کشور از طریق تحلیل مجموعه ارجاعات به مقالات منتشر شده سالهای 1376 لغایت 1379

دانلود فایل پاورپوینت احکام مرتبط قانون بودجه سال1391 و قانون اجرای سیاستهای کلی اصل ( 44 ) قانون اساسی

دانلود فایل پاورپوینت احکام مرتبط قانون بودجه سال1391 و قانون اجرای سیاستهای کلی اصل ( 44 ) قانون اساسی

دانلود فایل پاورپوینت در تدبیر مسافر برّ

دانلود فایل پاورپوینت احکام مرتبط قانون بودجه سال1390 و قانون اجرای سیاستهای کلی اصل ( 44 ) قانون اساسی

مقاله ارزیابی مزایا و بررسی اثربخشی سازمانی جایگزینی حسابداری مبنای تعهدی بجای حسابداری مبنای نقدی در دانشگاه علوم پزشکی و خدمات بهداشتی درمانی شهید بهشتی

مقاله تحلیل رایانشی عناوین مقالات علمی فارسی مرتبط با هویت

مقاله تحلیل روند مقالات مجله علوم ترویج و آموزش کشاورزی و The Journal of Agricultural Education and Extension طی سالهای 1395 - 1385

مقاله تحلیل آماری و پیش بینی یخبندان های دیررس شهرستان خاش طی دوره آماری 1391 - 1365

مقاله تحلیل آماری داده های ایستگاه های هیدرومتری سد شهیدان امیر تیموری رابر ( با تکیه بر آزمون های آماری با استفاده از نرم افزار SPSS )

مقاله تحلیل اقتصادی مقادیر بهینه روی و بُر مصرفی گیاه ذرت؛ مطالعه موردی منطقه زرقان

مقاله تحلیل محتوای کتاب های فارسی مدارس ایران از نظر میزان کاربرد واژه های حامل خشونت و واژههای حامل ملایمت و صلح

مقاله تفاوت جایگاه زنان در دیدگاه علوم انسانی اسلامی و علوم انسانی غربی

مقاله تحلیل محتوای مقالات پنجمین همایش پژوهش های زبان و ادبیات فارسی

مقاله تحلیل محتوای کتاب ( فارسی به فارسی : زبان فارسی 1 ) براساس اصول آموزشی تاملینسون

مقاله تفاوت جایگاه زنان در دیدگاه علوم انسانی اسلامی و علوم انسانی غربی

مقاله تولید علوم انسانی به زبان بین المللی : ارزش ، ضد ارزش یا بی ارزش؟ ( بازخوانی انتقادی موانع جهش علمی ایران در حوزه علوم انسانی )

مقاله راه دشوار علوم انسانی : بررسی جریا نها و گفتما نهای تحول خواه در عرصه علوم انسانی

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله تحلیل آماری واژههای فارسی مقالات علوم انسانی بر مبنای قانون زیف

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

دانلود مقاله ارزیابی مجلات علمی - پژوهشی دانشگاههای علوم پزشکی کشور از طریق تحلیل مجموعه ارجاعات به مقالات منتشر شده سالهای 1376 لغایت 1379

دانلود فایل پاورپوینت احکام مرتبط قانون بودجه سال1391 و قانون اجرای سیاستهای کلی اصل ( 44 ) قانون اساسی

دانلود فایل پاورپوینت احکام مرتبط قانون بودجه سال1391 و قانون اجرای سیاستهای کلی اصل ( 44 ) قانون اساسی

دانلود فایل پاورپوینت در تدبیر مسافر برّ

دانلود فایل پاورپوینت احکام مرتبط قانون بودجه سال1390 و قانون اجرای سیاستهای کلی اصل ( 44 ) قانون اساسی

مقاله ارزیابی مزایا و بررسی اثربخشی سازمانی جایگزینی حسابداری مبنای تعهدی بجای حسابداری مبنای نقدی در دانشگاه علوم پزشکی و خدمات بهداشتی درمانی شهید بهشتی

مقاله تحلیل رایانشی عناوین مقالات علمی فارسی مرتبط با هویت

مقاله تحلیل روند مقالات مجله علوم ترویج و آموزش کشاورزی و The Journal of Agricultural Education and Extension طی سالهای 1395 - 1385

مقاله تحلیل آماری و پیش بینی یخبندان های دیررس شهرستان خاش طی دوره آماری 1391 - 1365

مقاله تحلیل آماری داده های ایستگاه های هیدرومتری سد شهیدان امیر تیموری رابر ( با تکیه بر آزمون های آماری با استفاده از نرم افزار SPSS )

مقاله تحلیل اقتصادی مقادیر بهینه روی و بُر مصرفی گیاه ذرت؛ مطالعه موردی منطقه زرقان

مقاله تحلیل محتوای کتاب های فارسی مدارس ایران از نظر میزان کاربرد واژه های حامل خشونت و واژههای حامل ملایمت و صلح

مقاله تفاوت جایگاه زنان در دیدگاه علوم انسانی اسلامی و علوم انسانی غربی

مقاله تحلیل محتوای مقالات پنجمین همایش پژوهش های زبان و ادبیات فارسی

مقاله تحلیل محتوای کتاب ( فارسی به فارسی : زبان فارسی 1 ) براساس اصول آموزشی تاملینسون

مقاله تفاوت جایگاه زنان در دیدگاه علوم انسانی اسلامی و علوم انسانی غربی

مقاله تولید علوم انسانی به زبان بین المللی : ارزش ، ضد ارزش یا بی ارزش؟ ( بازخوانی انتقادی موانع جهش علمی ایران در حوزه علوم انسانی )

مقاله راه دشوار علوم انسانی : بررسی جریا نها و گفتما نهای تحول خواه در عرصه علوم انسانی

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران