بخشی از مقاله
چکیده :
بازار سهام به دلیل سود بالایی که از آن انتظار میرود یکی از محبوبترین اشکال سرمایهگذاری است. زمانیکه سرمایه گذار وارد بورس اوراق بهادار میشود، اولین مسئلهای که با آن مواجه است این است که کدام سهام را انتخاب کند؟ بر همین اساس مطالعات متعدد، روشهای مختلفی را برای کمک به سرمایهگذاران در تجزیه و تحلیلها و تصمیمگیریهای مربوط به انتخاب سهام پیشنهاد نموده اند.
با توجه به برآوردن این نیاز ، هدف این تحقیق، خوشهبندی شرکتها جهت کمک به سرمایهگذاران در انتخاب سبد سهامی است که نسبت به شاخص بازار بهینه باشد. برای این منظور اطلاعات مربوط به سهام 374 شرکت پذیرفته شده در بورس اوراق بهادار تهران، برای بازه زمانی 93/01/01 تا 93/12/29 مورد بررسی قرار گرفت. نتیجه این پژوهش نشان میدهد استفاده از الگوریتمهای خوشهبندی برای ساخت پرتفوی مالی میتواند پرتفولیویی قابل اعتمادتر نسبت به زمانی که خوشهبندی صورت نمیگیرد ارائه دهد.
مقدمه
آغاز دادهکاوی - DM - به سال 1980 برمیگردد و به عنوان یک شاخه تحقیقاتی جدید پیشرفت قابل توجهی داشته است. دادهکاوی علم و فن-آوری کاوش دادهها به منظور کشف الگوهای ناشناخته و به عنوان بخشی از فرآیند کلی کشف دانش در پایگاه دادهها میباشد. این پایگاه داده دارای مقادیر عظیمی از اطلاعات است. دسترسی به این اطلاعات باعث میشود دادهکاوی مهم و ضروری شود. موسسات مالی مانند بازارهای سهام مجموعه بزرگی داده تولید میکنند که پایه و اساسی برای نزدیک شدن به مشکلات بزرگ و پویا با استفاده از ابزارهای دادهکاوی ایجاد میکند. ویلمورگان دادهکاوی را اینگونه تعریف کرده است:
دادهکاوی فرآیند کشف معنیدار ارتباط جدید، الگوها و روندها از طریق مقادیر زیادی داده با استفاده از فنآوری تشخیص الگو و همچنین تکنیکهای آماری و ریاضی میباشد. در یک نگاه کلی فنون دادهکاوی به دو منظور توصیفی و پیشبینی استفاده میشود. هدف مدل پیشبینی، پیشبینی ارزش یک ویژگی خاص بر اساس ارزش ویژگیهای دیگر است در حالی که مدل توصیفی با توابع آموزش بدون نظارت همراه است. در واقع مدل توصیفی به جای پیشبینی ارزش هدف، به کشف الگوها در دادههای موجود و ارتباط دادهها برای ایجاد خوشهها و کلاسهای معنیدار میپردازد. انواع مدلسازی توصیفی شامل، برآورد چگالی، تقسیمبندی دادهها و خوشهبندی است. در این پژوهش کاربرد خوشهبندی در بازارهای مالی مورد بررسی قرار گرفته است.
مبانی نظری و پیشینه پژوهش مقدمهای بر خوشهبندی
در یک نگاه کلی انواع مدلسازی دادهها عبارتند از: طبقهبندی، خوشهبندی، پیشبینی، پیوستگی و رگرسیون.
خوشهبندی یک تکنیک دادهکاوی است که در آن دادههای مشابه بهطور خودکار در گروههای مربوط بدون دانش پیشرفته از تعاریف گروه، قرار میگیرنددر واقع خوشهبندی یک وظیفه اصلی در یادگیری ماشین و تجزیه و تحلیل دادههای آماری میباشد و برای استخراج اطلاعات ارزشمند از مجموعهای از دادهها بهکار میرود. خوشهبندی یک روش یادگیری نظارت نشده است.
مراحل خوشهبندی
تجزیه و تحلیل خوشه شامل 4 مرحله با یک مسیر بازخورد میباشد که به شرح زیر ارائه میگردد:
الف- انتخاب یا استخراج ویژگی
انتخاب ویژگی، انتخاب ویژگیهای متمایز از مجموعههای از نامزدها میباشد در حالی که استخراج ویژگی بهرهگیری از برخی تحولات برای تولید ویژگیهای مفید و جدید است.هر دو برای اثربخشی برنامههای کاربردی بسیار مهم هستند.
ب-طراحی الگوریتم خوشهبندی یا انتخاب
الگوها بر اساس شباهتشان به یکدیگر گروهبندی میشوند. نزدیکی اندازهگیری، مستقیما بر شکل نتیجه خوشهبندی تاثیر میگذارد.
ج-اعتبارسنجی خوشه. د-تفسیر نتایج تحقیقات داخلی
الگوریتمهای خوشهبندی کاربردهای فراوانی در زمینه، تقسیمبندی بازار، درجهبندی اعتباری، پیشبینی ورشکستگی، و .... دارند. تا کنون در زمینه خوشهبندی تحقیقات داخلی و خارجی بسیاری صورت گرفته است که پارهای از آن به شرح زیر میباشد.
پورزندی و کیخا - - 1393 سبد سهام بهینه را با استفاده از الگوریتم خوشهبندیK - Means و الگوریتم ژنتیک انجام دادند. برای این منظوراطلاعات مربوط به سالهای 1388 تا 1390 را مورد بررسی قرار دادند. آنها کار خود را طی دو مرحله به شرح زیر انجام دادند: ابتدا طبقهبندی سهمهای پرتفوی ابتدایی با روش K - Means به دستههای کوچکتر انجام شد و سپس طبقهای که بهینهتر است یعنی بیشترین بازده و کمترین ریسک را دارد را به عنوان ورودی الگوریتم خود انتخاب کردند و بعد از آن الگوریتم ژنتیک را برای این طبقه از سهام اجرا کردند نتایج حاصل از این تحقیق نشان میداد که بازده بدست آمده از اجرای الگوریتم ژنتیک به تنهایی در مقایسه با اجرای الگوریتم بر روی طبقه بهینه، کمتر و ریسک آن بیشتر میباشد و طبقهبندی دادهها و سپس اجرای الگوریتم ژنتیک روی طبقه بهینه باعث دستیابی به پرتفویی می-شود که نسبت به پرتفوی حاصل از اجرای الگوریتم ژنتیک به تنهایی دارای ریسک کمتر و بازدهی بیشتر میشود.
رشیدی و همکاران - - 2007 با استفاده از الگوریتم خوشهبندی K - Means اقدام به خوشهبندی بازار سهام نمودند. برای این منظور اطلاعات لازم برای سالهای 1998 تا 2002 به منظور انتخاب 30 سهم جمعآوری شد. در نهایت 2 خوشه ایجاد شد. نتیجه نشان میداد که خروجی این الگوریتم میتواند برای تشکیل و بهینهسازی سبد سهام استفاده گردد.
الیمی و همکاران - - 2012 نیز اقدام به خوشهبندی صندوقهای متقابل و بهینهسازی چند هدفه نمودند. برای این منظور اطلاعات صندوقهای متقابل را از بورس اوراق بهادار تهران را برای سالهای 2007 تا 2009 جمعآوری نمودند. آنها برای خوشهبندی صندوقهای متقابل از روش-های K - Means و Ward بهطور جداگانه استفاده کرده و نتایج را با هم مقایسه نمودند. نتایج نشان میداد که نمیتوان روش - K Meansرا به روش Ward ترجیح داد و برعکس.
مهدیزاده وتوکلی مقدم - 2008 - در مقاله خود اقدام به خوشهبندی استفادهکنندگان کالا در سیستم زنجیره تامین با استفاده از دو الگوریتم خوشهبندی FCM و PSO نمودند. نتایج تحقیق نشان میداد که مدلPSO عملکرد بهتری نسبت به مدل FCM دارد .
تحقیقات خارجی
ناندا و همکاران - - 2010 الگوریتم K - Means و Fuzzy C - Means و SOM را برای تحقیق خود بکار گرفتند، سپس از طبقه سهام ایجاد شده خوشههایی را برای تشکیل پرتفوی انتخاب نمودند. فاکتورهای آنها: نسبت قیمت به سود هر سهم - - P / E، نسبت قیمت به ارزش دفتری - P/ BV - ، نسبت قیمت به سود نقدی هر سهم - - P / CEPS بودند. نتیجه تحقیق آنها نشان میداد که الگوریتم خوشهبندی - K Means، خوشههای جمع و جورتر برای طبقهبندی دادههای سهام نسبت به الگوریتم خوشهبندی Fuzzy C - Means و SOM ایجاد میکند.
شاین و سوهن - 2004 - در تحقیق خود برای تقسیمبندی مشتریان از 3 روش K -Means و SOM و Fuzzy K - Means استفاده نمودند. نتایج تحقیق آنها نشان میداد که خوشهبندی K - Means رویکرد قویتری برای تقسیمبندی مشتریان نسبت به دو روش دیگر میباشد.
سلیمان محمود و عبید علی - - 2013 در مقاله خود از دو روش PCA و الگوریتم K - Means استفاده نمودند. برای این منظور اطلاعات لازم برای 4 بخش بانکها، شرکتها، خدمات، اوراق بهادار دولتی جمعآوری شد. آنها روش PCA را به منظور کاهش ابعاد دادهها و تعیین مهمترین متغیرهای موثر بر تغییرات قیمت سهام و الگوریتم K -Means را به منظور ساخت یک نمونه از خوشههای همگن بر اساس نتایج PCA استفاده نمودند که در نهایت 3 خوشه ایجاد شد.
تکنیکهای خوشهبندی
از یک دیدگاه کلی، انواع الگوریتمهای خوشهبندی را میتوان به صورت زیر طبقهبندی کرد:
-1روش سلسله مراتبی
-2 - hierarchical - روش افرازبندی - partitioning -
-3روش بر پایه چگالی
-4 - Density - روش شبکهبندی
-5 - Grid - روش مبتنی بر مدل
روش پارتیشنبندی به دو روش سخت و فازی - نرم - تقسیم میشود در روش پارتیشنبندی سخت هرشی ازمجموعه دادهها باید به دقت به یک خوشه اختصاص داده شوند، مانند . K -Means در ادامه با توجه به اینکه برای خوشهبندی در این تحقیق از الگوریتم K-Means استفاده شده است تنها به توضیح این الگوریتم بسنده میکنیم.
الگوریتم خوشهبندی K - Means
الگوریتم K- Means اولین بار توسط مک کوئین در سال 1967 ارائه شد. این الگوریتم برای خوشهبندی مجموعه دادههای بزرگ بسیار کارآمد است و سریعترین راه خوشه بندی برای حجم وسیعی از دادهها محسوب میشود. در این الگوریتم قانون کلی برای تعداد بهینه خوشهها وجود ندارد و تعداد خوشهها بستگی به مشکل و مسئله موردنظر دارد.
الگوریتم K- Means نیاز به سه پارامتر مشخص شده دارد:
-1 تعداد خوشه -2 .k مقداردهی اولیه خوشه. -3 فاصله متریک - دادههای عددی - .