بخشی از مقاله
در پی کمبود ابزارهاي ابتدایی پردازش زبان طبیعی فارسی و نیاز روزافزون به برنامههاي ماشینی مبتنی بر زبان طبیعی، با مطالعه و اثبات تابعیت زبان فارسی از قوانین زبانشناسی کَمّی، میتوان بین زبانهاي برنامهنویسی و زبانهاي طبیعی پل ارتباطی ایجاد کرد. قانون زیف از جمله قوانینی است که در زبانشناسی کمی، در عین سادگی میتواند نقشی مهمی در پردازش زبان طبیعی فارسی ایفا کند. چرا که با استفاده از نتایج و گزارشهاي حاصل از این تحلیل، میتوان برنامهها و ابزارهاي پردازش زبان طبیعی را به گونهاي اصولیتر ساخت. در پژوهش حاضر پیکرهاي کوچک مقیاس، ساخته شد و سطح قابل قبولی از پیش پردازش با رویکردي زبانشناسانه بر روي آن اجرا و سپس قانون زیف بر روي آن پیاده سازي و بردار و نمودارهاي زیف آن رسم شد. به منظور اعتبارسنجی از ضریب همبستگی پیرسون ما بین بسامدهاي تخمینی و واقعی استفاده شد. همچنین بردارهاي ر سم شد با بردارهاي زیف پیکرههاي دیگر به زبان انگلی سی که از این قانون پیروي میکنند مقای سه شد. نتیجه حاصل، تبعیت زبان فارسی از این قانون بود. واژههاي کلیدي: قانون زیف، پیکرههاي زبانی، آمار، بسامد، زبان فارسی
-1 مقدمه
در سال 1935 زبان شناس آمریکایی جورج کینگزلی زیف1 درﯾﺎﻓﺖ که در زبان طبیعی، میان طول کلمات و میزان ب سامد آنها ارتباط معکوسی وجود دارد. یکی از نظریات مطرح در رفتار انسان، اصل کمترین کوشش زیف است که در سال 1949 ارائه شد. این اﺻﻞ حاکی از آن است که انسان تمایل دارد در حل یک مسأله راهی را برگزیند که کمترین تلاش را نیاز دارد. کانوال2، اسمیت3، کول برستون4 و کربی[1] - 2017 - 5 اذعان دارند که زیف مشاهدات کلاسیک را در خصوص با رابطه ﺑﯿﻦ طول ﮐﻠﻤﻪ و بسامد آن ارائه و بیان کرد که یک کلمه با بسامد بیشتر، طول کمتري دارد و همچنین ادعا کرد، این »قانون اختصار« یک ویژگی ساختاري جهانی زبان ا ست. از آن زمان قانون اخت صار در طیف گ ستردهاي از زبانهاي ان سانی اثبات شده ا ست و به سی ستمهاي ارتباطی حیوانات و حتی زبانهاي برنامهنویسی ﮐﺎﻣﭙﯿﻮﺗﺮي نظیر جاوا اسکریپت6 و سیپلاسپلاس7 گسترش یافته است. مشاهده شده است که توزیع بسامد در موسیقی، جمعیت شهري، اﻧﻘﺮاض، زلزله و حتی دياناي8 نیز براساس قانون زیف است و این توزیع به عنوان محیطهاي زیفی9 شناخته می شود. .مشاهداتکمّی و مدلهاي ریاضی اولیهي در حوزهي واژگان توسط استوپ - 1916 - ، یول - - 1924 و کاندن - 1928 - انجام گرفت. اما جرج کینگلی زیف - 1902-1950 - بود که رابطه بین کلمات و میزان ب سامد را بهطور قانونمند برر سی کرد. او نخ ستین ک سی بود که یک مدل نظري براي تو ضیح این روابط یافت و در این رابطه یک فرمول ریا ضی ارائه کرد که به » قانون زیف… شهرت یافت.
در این پژوهش هدف، برر سی آماري واژگان زبان فار سی برا ساس قانون زیف میباشد و ا سا ساً این نتیجه مدنظر ا ست که آیا این قانون بر روي زبان فار سی نیز حاکم ا ست یا خیر؟ اما این مهم زمانی به در ستی نتیجه خواهد داد که دادهها پیشپردازش شده و نرمال باشند و چالشهاي موجود تا حد امکان در نظرگرفته شوند. برر سی تاریخچه پژوهش ن شان میدهد که پژوه شگران ب سیاري به تحلیل زبانهاي مختلف برا ساس ا صل قانون زیف پرداختهاند. براساس این پژوهشها، قانون زیف بر روي بیشتر زبانها نظیر انگلیسی، فرانسه، یونانی، رومی، آلمانی و ... قابل اعمال است.[1] این خود نقطه الهام بخ شی بود که بتوان با ا ستفاده از قانون زیف در علوم زبانی و رایانهاي، پلی ایجاد کرد و شبیه سازي زبان طبیعی براي سیستمها و ماشینها را انجام داد.
از آنجا که زبان شنا شی رایان شی ر شتهاي نوپا در زبان فار سی ا ست، انجام پردازشهاي سی ستمی براي این زبان از این منظر بسیار کم است. در پژوهش پیشرو سعی بر این است که تابعیت زبان فارسی از قانون زیف که یکی از قانونهاي پایدار و مبنایی در تحلیلهاي آماري است مطالعه و اثبات شود چرا که براساس نتایج گزارشهاي این تحلیل، میتوان برنامهها و ابزارهاي پردازش زبان طبیعی را اصولیتر ساخت. پس میتوان گفت که این اقدام گام نخستی براي پردازش زبان طبیعی به حساب میآید. زیرا متون زبانی براي سی ستمی و ما شینخوان شدن باید مراحل پرفراز و ن شیبی را طی کنند، که مهمترین آنها پیش پردازش ا ست که به دلیل رسمالخط متفاوت از انگلیسی، ننوشته شدن مصوتهاي کوتاه در فارسی و وجود نیمفاصله که مرزبندي بسیار چالش برانگیز در زبان فار سی به وجود میآورد از اهمیت بالایی برخوردار ا ست. با ا ستناد بر درودي10 و دیگران [2] - 2004 - در ساخت پیکرههاي مدرن فارسی براي یکدست کردن پیکره، به قانون زیف نیاز است. در این پژوهش زبان فارسی را براساس تعداد حروف کلمات بررسی کردهاند. با توجه به نتایج و جداول آورده شده به نظر میرسد که نرمالسازي به خوبی اعمال نشده است و درمواردي همچون »ها« و »هاي« به عنوان واژههاي به ترتیب دو حرفی و سه حرفی یاد شدها ست، درحالی که به تنهایی معناي م ستقلی را نمیرسانند و واژه محسوب نمی شوند و در طبقه پسوندهاي صرفی قرار دارند. براي محقق شدن این هدف به مراحل پیشپردازش نیاز ا ست که ابتدایی ترین آنها نرمال سازي ا ست. بدین گونه که فا صلهي بین پ سوندها و پی شوندهاي صرفی یا حتی ا شتقاقی به نیمفاصله تغییر پیدا کنند. در پژوهش پیشرو سعی بر آن شد که نرمالسازي بر روي دیتاهایی که پیکره حاضر را ساختهاند انجام شود.
با استفاده از این تحلیل آماري، فهرستی از واژههاي پرکاربرد که در بیشتر حالات، کم اهمیتترین واژههاي یک متن را تشکیل میدهند به دست میآید که این خود در اکثر سطوح پردازش زبان طبیعی حائز اهمیت است. زیرا با حذف واژههايمانع و توجه به واژگان کلیدي به منظور بازیابی اطلاعات، رسیدن به هدف سریعتر و با دقت بیشتري انجام خواهد پذیرفت. از جمله پژوهشهاي انجام شده بر روي زبانهاي مختلف میتوان از زبان عربی که داراي الفبا و ر سمالخط نزدیک به زبان فار سی است نام برد. در این راستا ﻣﻘﺎﻻت عبدالعلی11، کوي12 و سلیمان[3] - 2005 - 13 گودر14 و دي رووك[4] - 2001 - 15 در زبان عربی قابل ذکر است که در وهلهي نخست به نرمالسازي و تنظیم مجدد پیکره براي آمادهسازي و استفاده در نرمافزارهاي آماري پرداختهاند و دوم آن را با زبان انگلیسی مقایسه کرده و به بررسی چالشهاي زبان عربی پرداختهاند. در فارسی نیز هاشمزاده، نخعی و مراديمقدم [5] - 1392 - ، مهدوي نسب [6] - 1392 - ، ترابی [7] - 1389 - ، غرويقوچانی - [8] - 1385، درودي، حجازي و ارومچیان [2] - 2004 - ، تقییاره، درودي، ارومچیان و انگشتري [9] - 2003 - و مهري16 و جماعتی[10] - 2017 - 17 از این قانون نیز استفاده کردهاند و به بررسی دادگان فارسی پرداختهاند اما در هرکدام خلاء عدموجود نرمال سازي و پیشپردازش متن فارسی وجود دارد و چالشهاي زبان فارسی مورد توجه قرار نگرفتهاست.
از ﺟﻤﻠﻪ زﺑﺎنﻫﺎﯾﯽ که قانون زیف در آن بررسی شده است زبان ماندارین چینی است. با استناد بر لین لیو18، ژانگ19، گنگ20، لینگ لایی21 و وانگ[11] - 2017 - 22 نوی سههاي چینی واحدهاي پایهاي براي کلمات چینی ه ستند و یک کلمه ﭼﯿﻨﯽ میتواند شامل یک، دو یا چند کاراکتر باشد. بسیاري از کاراکترها میتوانند به عنوان کلمات در زبان چینی عمل کنند. واژههایی که شامل نویسههاي دوتایی، سهتایی و بیشتر میشوند، به عنوان بایگرم، ترایگرم و به طور کلی n-gram نامگذاري میشوند. در زبان چینی واژهها را با فاصله مانند زبان انگلیسی جدا نمیکند، بنابراین یک خواننده باید یک رشته کاراکتر را به کلمات تبدیل کند تا متنهاي چینی را درك کند. ماندارین چینی طی هزاران سال گذشته تکامل یافته است. اسناد نوشته شده در زبان چینی در حال حاضر شامل تعداد زیادي بایگرم و ترایگرم ا ست در حالی که متون کلا سیک چینی تعداد ب سیار زیادي یونیگرم را شامل می شود. در پژوهشهاي پیشین بر روي زبان چینی اساساً بر روي تطبیق توزیع زیفی بر پیکرههاي چینی تمرکز شده است. نتیجه بدست آمده از نمودارها و منحنیهاي زبان چینی، تطابق آنها با نمودارها و منحنیهاي زیف بود. اینکه این قانون یک قانون جهانی است و بر روي بیشتر زبانها قابل اعمال است را میتوان از پژوهش بنتز23 و فررکانچو24 [12] - 2016 - دریافت. آنها قانون اختصاري زیف را در تمام 1263 متن و 986 زبان مورد آزمایش قرار دادهاند. قدرت قانون نیازمند توضیح نظري است و این موضوعاساساً مهم است، زیرا میتواند دریچه جدیدي در بحث در مورد جهانیهاي زبان باز کند. زیرا در ادامه میتوان به وجود خواص جهانی زبان دست یافت. با این حال، ممکن است که جهانیهاي زبان از اصول اساسی انتقال اطلاعات، به جاي زبان و تعصبات خاص انسان، بدست آید.