بخشی از مقاله

چکیده

در این پژوهش با پیاده سازي الگوریتم کا- میانگین، رباعیات عمر خیام - نسخهي محمدعلی فروغی - خوشهبندي شد تا رایانه رباعیاتی که از دیدگاه واژگانی ناهمگوناند و آنها که همساناند را آشکار سازد. ویژگیهاي به کار رفته براي خوشهبندي از یک سو »فراوانی واژگان« و از دیگر سو »فراوانی واژگان در وارون فراوانی سندها« بود. خوشهبندي هم با زدایش ایستواژهها و هم با نگهداشت آنها انجام گرفت. فرایند خوشهبندي با شمار خوشههاي گوناگون، از یک تا پنجاه خوشه، بارها از سر گرفته و یافتههاي عددي با یکدیگر سنجیده شد. بدین سان با در نگر آوردن دو ویژگی بالا، بود یا نبود ایستواژهها و تعداد خوشهها، رباعیات به 200 شیوهي گوناگون خو شهبندي شدند. یافتههاي این پژوهش میتواند در باز شنا سی ا صالت رباعیات خیام روشنگر باشد و به منتقدان ادبی یاري رساند.

واژههاي کلیدي: رباعیات عمر خیام، خوشهبندي، الگوریتم کا-میانگین، اصالت متن، زبانشناسی رایانشی.

.1 مقدمه

بهرهگیري از شیوههاي آماري در بازشناسی الگو از دهههاي پایانی قرن بیستم آغاز شد. در این زمینه هارتیگان [1] را میتوان از پیشگامان شناساندن الگوریتم خوشهبندي کا-میانگین دانست. هارتیگان و دیگران [2]، این شیوهي خوشهبندي را شرح میدهند و به توصیف مراحل انجام کار میپردازند. فوکوناگا [3] در راستاي معرفی روشهاي آماري در بازشناخت الگو، به تفکیک تکنیکهایی که در خوشهبندي به کار میروند میپردازند. راسموسن [4] نیز خوشهبندي را توصیف میکند و روشهاي مختلف آن را برمیشمارد. آلن [5] و مانینگ [6] از خوشهبندي و الگوریتم کا-میانگین در پردازش زبان طبیعی بهره میگیرند و ویژگیهاي آن را شرح میدهند. چنین برمیآید که خوشهبندي بیشتر هنگامی به کار میرود که با دادگان برچسبزده نشدهي انبوهی سر و کار داریم.

در اینجا تلاش میشود از خوشهبندي کا-میانگین براي بازشناسی اصالت رباعیات عمر خیام استفاده شود.از الگوریتم خوشهبندي کا-میانگین میتوان در تشخیص اصالت یک متن و تفکیک بخشهاي اصیل از افزودههاي متن بهویژه در مورد آثاري که در رهگذر زمان ثبت شدهاند و در اصالت بخشهایی از اثر تردید وجود دارد بهره برد. از این رو، در پژوهش حاضر تلاش شده است تا با پیادهسازي الگوریتم کا-میانگین رباعیات حکیم عمر خیام خوشهبندي شده و آن دسته از رباعیاتی که از نظر واژگانی ناهمگون هستند از دیگر رباعیات خیام تفکیک گردند.نمونهي شناخته شده از نسخهاي که پژوهشگران در آن رباعیات را دستهبندي کردهاند نسخهاي است که هدایت [7] منتشر کرده ا ست. هدایت رباعیات خیام را بر ا ساس مو ضوعات مطرح شده در آنها د ستهبندي کرده و رباعیاتی را که با جهانبینی شاعر ناسازگارند کنار مینهد. اما به نظر میرسد نسخهي محمدعلی فروغی [8] و [9] بیشترین اقبال را در میان ناشران در سالهاي اخیر داشته است و میتوان آن را از معتبرترین نسخهها دانست.

در اینجا یک چاپ پیش از انقلاب [8] و یک چاپ پس از انقلاب [9] این ن سخه برگزیده شده ا ست و دادگان پردازش شده از دو تارنماي یاد شده در منابع [10] و [11] گرفته شدهاند. دلیل انتخاب یک نسخهي پیش از انقلاب و یک نسخه پس از انقلاب در نظر گرفتن تغییرات احتمالی در املاي کلمات و امکان وجود دگرگونیهایی در رسمالخط بوده است. انتخاب این دو نسخه با احتمال وجود تفاوتهاي ویرایشی و یا ممیزي صورت گرفته به ارتقا سطح بههنجار سازي منجر شده ا ست. بنمایهي ا صلی دادگان پژوهش ن سخهي اینترنتی رباعیات موجود در ف ضاي مجازي بود. اما در مرحلهي بههنجارسازي و ویرایش، دادگان با دو نسخهي قدیم و جدید مطابقت داده شدند.

.2 روش انجام پژوهش

در روش خوشهبندي کا-میانگین در هر خوشهبندي N نمونه D بعدي داریم: .{x1, x2, . . . , xN} در اینجا هر نمونه یک رباعی خیام است و N، برابر با 178 است که همان تعداد رباعیات گنجانده شده در نسخهي محمدعلی فروغی است. براي این که دقت خوشهبندي افزایش یابد همهي رباعیات به شیوهي دستی بههنجارسازي شدند. هر رباعی با بردار ویژگی وابسته - TF یا - TF-IDF شناسانده شد. انگیزهي انجام این پژوهش، خوشهبندي رباعیات در K خوشه با مرکزهاي {μ1, μ2, . . ., μK} بود. در آغاز، مرکزهاي خوشهها به شیوهي تصادفی مقداردهی شدند. براي این که یافتههاي پژوهش از دیدگاه علمی تکرارپذیر باشند مقدار اولیهي هر کدام از مرکزها برابر با مختصات بردار داراي اندیس حاصلضرب شمارهي آن مرکز در حاصلتقسیم جزءصحیح عدد 178 بر k - تعداد خوشهها - انگاشته شد.

سپس تا زمانی که مقدار مرکز خوشهها تغییر میکرد، گامهاي زیر پیوسته از سر گرفته میشدند:

•بسته به کمیتهاي مراکز خوشهها، نزدیکترین خوشه به هر رباعی یافته میشد.

•با توجه به دادههاي هر خوشه، مختصات مرکز خوشه دوباره محاسبه میگردید.

براي سنجش درستی و دقت خوشهبندي، در هر حالت براي هر خوشه میانگین معیارهاي انسجام درونی1، تفکیک برونی2 و ضریب سیلوئت3 محاسبه گردید و میانگین ضریب سیلوئت براي همه دادهها نیز نمایانده شد.هنگامی که فا صلهي اقلید سی یا به عبارتی دیگر فا صلهي متریک داریم، ضریب سیلوئت براي هر داده xi از رابطهي زیر به دست میآید:در رابطهي فوق ai برابر است با فاصله داده xi از تمام دادههاي دیگر در خوشهي خودش که همان تعریف انسجام درونی است. براي به دست آوردن bi نخست میانگین فاصلهي داده xi از تمام دادههاي دیگر در K-1 خوشهي دیگر محاسبه میشود که همان تفکیک برونی است و سپس کمترین مقدار به دست آمده به عنوان مقدار bi انتخاب میگردد.

از آنجا که براي خو شهبندي متنها، فا صلهي اقلید سی چندان منا سب نی ست و باید از فا صلهي ک سینو سی بهره ج ست، در معادله محاسبه ضریب سیلوئت باید تغییراتی ایجاد میشد. نخست براي انتخاب bi به جاي کمترین کمیت، بیشترین مقدار برگزیده شد و سپس در صورت کسر جاي ai و bi عوض گردید.براي تکتک رباعیات ضریب سیلوئت محاسبه گردید و براي هر خوشه و تمام خوشهها نیز میانگین ضریب سیلوئت به دستآمد.بر حسب ویژگی »فراوانی واژگان« و با »نگهداشت ایستواژهها« براي خوشهبندي از 2 تا 10 خوشه، ضریب سیلوئت به طور میانگین با تقریب سه رقم اعشار 0,208 است.

برحسب ویژگی »فراوانی واژگان« و با »زدایش ایستواژهها« براي خوشهبندي از 2 تا 10 خوشه، ضریب سیلوئت به طور میانگین با تقریب سه رقم اعشار 0,397 است. برحسب ویژگی »فراوانی واژگان در وارون فراوانی سندها« و با »نگهداشت ایستواژهها« براي خوشهبندي از 2 تا 10 خوشه، ضریب سیلوئت به طور میانگین با تقریب سه رقم اعشار 0,239 ا ست. برح سب ویژگی »فراوانی واژگان در وارون فراوانی سندها« و با »زدایش ای ستواژهها« براي خو شهبندي از 2 تا 10 خوشه، ضریب سیلوئت به طور میانگین با تقریب سه رقم اعشار 0,353 است.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید