بخشی از مقاله
چکیده
در این مقاله به بررسی چگونگی تهیه خودکار یتک زیرپیکتره بتا انتدازه مشتخص از پیکره زبانی خواهیم پرداخت برای انجام این امر، ابتدا واژههتای جمتالت بته بتردار معنایی تبدیل میگردد سپس بردار جمله به دست میآید با داشتن بردار جمتالت میتوان از یک نرمافزار خوشهبندی برای خوشهبندی جمالت استفاده کرد جمتالت خوشهبندیشدهمجدداً از حالت بردار خارج شده و به شکل واژگتانی واژههتا تبتدیل میشود در مرحله آخر با توجه به حجم زیرپیکره مورد نظر، تعدادی از جمالت هتر خوشه به صورت تصادفی انتخاب میگردد تا زیرپیکره ساخته شود.
کلیدواژهها: پیکره زبانی، زیرپیکره0، بردار9 معنایی، خوشهبندی4
.1 مقدمه
امروزه در زبانشناسی نوین تالش میشود نظریه زبتانی ارائهشتده فقتط یتک نظریه صِرف نباشد؛ بلکه با داده زبانی نیز سنجیده شتود بنتابراین ارائته یتک نظریه زبانی قبل از پذیرش مشروط به این است کته گستتره آن نظتر زبتانی، خواه محدود خواه وسیع، بررسی گردد چنین رویکتردی بتهعنوان یتک روش تحلیل سبب میشود به اهمیت پیکره زبانی و همچنین تهیه آن بهعنوان یتک ابزار برای محکزدن نظریه زبانی پی برده شود نکته قابل توجه این است کته میتوان مسئله مورد نظر را به لحا کمّی و آماری سنجید و بتا بررستی آمتار پشتوانهای برای آن نظر یا تحلیل ارائه کرد ستؤالی کته مطترح میشتود ایتن است که این پیکره زبانی چه ویژگیهایی بایتد داشتته باشتد تتا بتتوان آن را عنوانبه نماینتده زبتان تلقّتی کترد و آیتا ایتن امکتان وجتود دارد کته بتتوان ویژگیهای زبانی یک پیکره را در مقیاس کوچکتر بهصتورت یتک زیرپیکتره حاصل از آن پیکره زبانی متجلی کرد در این مقالته بته بررستی ایتن مستئله خواهیم پرداخت این مقاله در 1 بخش تهیه شدهاست در بخش 0 ویژگیهتایی کلتی یتک پیکره زبانی بیان میشود در بخش 9، بتهطور فشترده تعتدادی از پیکرههتای زبانی تهیهشده زبان فارسی معرفی میگتردد در بختش 4 ایتده اصتلی متدل مورد نظر برای تهیه زیرپیکره توضیح داده میشود همچنتین در ایتن بختش، ابزار و دادههایی که برای تهیه زیرپیکره بهکار خواهد رفت معرفی خواهند شد و در ادامه این بخش مدل ارائهشده توضیح داده خواهد شد در انتها در بخش 1، به نتیجهگیری راهکار ارائهشده خواهیم پرداخت
.5 پیکره زبانی
بتته مجموعتتهای از داده زبتتانی گردآوریشتتده کتته بتترای تحلیتتل یتتا توصتتیف ویژگیهای زبانی بهکار رود پیکره زبانی گفته میشود این داده گردآوریشتده میتواند بهصورت الکترونیکی و یتا بتر روی کاغتذ باشتد در تعریتف امتروزی پیکره، به داده زبانی گردآوریشده الکترونیکی که در رایانه قابل بررسی استت861 پیکره گویند پیکتره زبتانی دارای ویژگیهتایی استت کته بتهطور فشترده بته شاخصترین ویژگیهای آن اشاره شده و توضیح داده میشودمکانری و ویلسون - 0225 - پنج ویژگی مهم را برای پیکره ذکر کردهانتد ویژگی اول نمونهگیری و نماینده5 زبان بودن این حجم داده است وجود تنوع یکی از اساسترین ویژگتی پدیتده زبتان استت، بنتابراین داده گردآوریشتده میبایست متنوع بوده و سوگیری0 نداشته باشد تا عالوهبر متوازنبتودن9، فقتر داده4 هم نداشته باشد و بتواند بهعنوان نماینده زبان تلقی گردد ویژگتی دوم این است که پیکره میبایست از نظر حجم محدود باشد؛ چراکه گردآوری هتر حجمی از داده سبب اعمال محدودیت در حجم میشود ویژگی دیگر، حالتت داده است داده میتواند بهصورت نوشتاری و یا گفتاری باشد متتن نوشتتاری میتواند کتاب، مجله، و یا روزنامه باشد اخیراً داده وب نیز میتوانتد بتهعنوان یک منبع تهیه داده نوشتاری تلقّی گردد متن گفتاری نیز ممکن استت دارایسبک رسمی و غیررسمی باشد حالت دیگر داده، چه بهصورت متن نوشتتاری و چه بهصورت متن گفتاری، ایتن استت کته میتوانتد بهصتورت الکترونیکتی موجود باشد تا امکان تجزیه و تحلیل و پردازش داده بتا کمتک رایانته میستر گردد معیاربودن نیز ویژگی دیگر است که سبب میشتود داده گردآوریشتده که بیانگر نماینده زبان است بهعنوان یک مرجع معیار برای تنوع زبانی بتهکار رود کته ایتن تنتوع زبتانی میتوانتتد بهصتورت زبتان معیتار1، فرامعیتار9، و یتتا زیرمعیار7 نمود کند - داگالس، - 0229شایان ذکر است که عالوهبر ایتن متوارد، میتتوان ویژگیهتای دیگتری را برای پیکره برشمرد ازجمله این ویژگیها بتازه زمتانی بترای دوره معاصتر یتا