بخشی از مقاله

چکیده

با گسترش علم در زمینه های مختلف، هر روز با انبوهی از اطلاعات مواجه خواهید شد. ذخیره سازی و نتیجه گیری از این اطلاعات به دست آمده خود سبب پیدایش علوم جدیدی شده است. داده بزرگ و تحلیل داده بزرگ یکی از این موارد است که در دهه ی اخیر مورد توجه محققان زیادی قرار گرفته است. . داده های بزرگ به عنوان مجموعه داده هایی شناخته شده است که توانایی برنامه های کاربردی و تکنولوژی های معمول را در مدیریت و تجزیه و تحلیل دچار چالش کرده است. وجود هرگونه خطا و اشتباهی در تحلیل داده ها می تواند به نتیجه گیری های نادرستی منجر گردد.

استفاده از روش های آماری زمینه های علمی، برای تجزیه و تحلیل داده های عینی را فراهم می سازد و منجر به ارائه ی نتایج با معنا و معتبر از اطلاعات جمع آوری شده می گردد. حجم ، مقیاس و ساختار داده های حال حاضر چالش های آماری ایجاد کرده است. برای درک قوی از اطلاعات موجود در داده هایی با حجم زیاد استفاده از روش های کلاسیک آماری به تنهایی کارا نیست.

ایجاد ارتباط بین روش های آماری و علوم رایانه ای، سبب می شود که روش های کارا و سریعی برای استخراج اطلاعات نهفته ی مجموعه ای بزرگ از داده ها ارائه گردد و منجر به طیف گسترده ای ازبینش ها و منافع شود. با کمک آمار و سایر رشته های وابسته به آن مانند داده کاوی، یادگیری ماشین، شبکه های عصبی، تحلیل شبکه های اجتماعی، پردازش سیگنال، تشخیص الگو، روشهای بهینه ساز ی و تجسم رویکردها می توان اطلاعات نهفته ی مجموعه ای بسیار بزرگ از داده ها را به دست آورد.

ترکیب مدل سازی لگاریتم خطی به عنوان یک روش آماری با رده بندی درخت رگرسیونی که از تکنیک های .یادگیری ماشین یکی از روشهایی است که در تحلیل داده های رسته ای نقش مهمی دارند و در این تحقیق مورد بررسی قرار داده شده است.

-1 مقدمه

در دنیای امروزی، داده از نظر اندازه در حال بزرگ شدن است. سرعت تولید داده به دلیل تنوع موضوعات مورد بررسی و استفاده ی زیاد از وسایل همراه و حسگرهای متصل به اینترنت در حال افزایش است. هفتاد سال پیش برای اولین بار تلاش برای تعیین نرخ رشد در حجم داده ها و یا آنچه مردم به عنوان "انفجار اطلاعات" با آن مواجه شدند، توسط فرمونت رایدر*، شروع شد.

در سال 1944 فرمونت رایدر، کتابدار دانشگاه وسلین ، آینده ی پژوهشی کتابخانه را این طور تخمین زد، که کتابخانه های دانشگاه آمریکایی هر شانزده سال، دو برابر می شوند. با توجه به این نرخ رشد، رایدر حدس زد که کتابخانه دانشگاه ییل در سال2040 به حدود 000،000،200 حجم می رسد، که بیش از 6000 مایل از قفسه ها را اشغال خواهد کرد، پس نیاز به یک هیات فهرست نویسی بیش از شش هزار نفر داشته و در نتیجه نیاز به منبعی که حجم بزرگی از داده ها را بتواند نگهداری کند، پیدا خواهد شد

به دنبال این نظریه و نظریات مشابه مشخص گردید که حجم اطلاعات در اکثر زمینه ها در حال افزایش است. با توجه به رشد روز افزون اطلاعات و ارائه راه حل هایی جهت ذخیره سازی اطلاعات ، اصطلاح داده ی بزرگ مطرح گردید و به دنبال آن تحقیقات زیادی در زمینه ی حوزه ی تولید و ذخیره سازی و تحلیل حجم انبوه اطلاعات انجام گرفته شد و این تحقیقات همچنان نیز ادامه دارد.

بر اساس تحقیقات انجام گرفته شده، داده های بزرگ اصطلاحی برای مجموعه ای از داده های حجیم، متنوع، با ساختار پیچیده است که دارای دشواریهایی برای ذخیره سازی، تحلیل و مصور سازی می باشند و اغلب از منابع مختلف سرچشمه گرفته اند. داده های بزرگ به نیازهای متمایزی می پردازند، مانند ترکیب مجموعه ای از داده های متعدد نامربوط، برازش مقادیر زیادی از داده ها ی بدون ساختار و برداشت اطلاعات به شیوه ی حساس به زمان. اگرچه داده های بزرگ ممکن است به عنوان یک رشته جدید به نظر برسد، اما این داده ها طی سال های متمادی در حال توسعه هستند.

مرزهای آنچه که به عنوان یک مساله ی داده بزرگ شناخته می شود با توجه به چشم انداز همیشه در حال تغییر است و دلیل این موضوع با توجه به پیشرفت نرم افزار و فناوری سخت افزاری قابل قبول است. سی سال پیش، یک گیگا بایت داده می توانست یک مساله داده بزرگ محسوب شود و نیاز به منبع محاسباتی خاص داشت. در حال حاضر یک گیگا بایت یک حجم معمولی محسوب می شود و به راحتی می تواند روی دستگاه های مصرف کننده انتقال، و ذخیره شود.

در بررسی این اطلاعات عظیم یا همان داده های بزرگ دو موضوع اولیه مطرح می گردد. یکی جمع آوری و ذخیره سازی داده ها می باشد و دیگری تجزیه و تحلیل داده ها است. داده ها و اطلاعات جمع آوری شده منابع خامی هستند که جهت کاربردی شدن نتایج آنها باید توسط ابزار مناسب مورد تجزیه و تحلیل قرار گیرند. مدیریت و تحلیل مجموعه داده های بزرگ یکی از مسائلی است که از دیرباز مطرح بوده است. فرآیند پژوهش روی داده های بزرگ برای آشکار سازی الگوهای پنهان، تجزیه و تحلیل داده های بزرگ نامیده می شود.

وجود هرگونه خطا و اشتباهی در تحلیل داده ها می تواند به نتیجه گیری های نادرستی منجر گردد. استفاده از روش های آماری زمینه های علمی برای تجزیه و تحلیل داده های عینی را فراهم می سازد و منجر به ارائه ی نتایج با معنا و معتبر از اطلاعات جمع آوری شده می گردد.

حجم ، مقیاس و ساختار داده های حال حاضر چالش های آماری ایجاد کرده است. برای درک قوی از اطلاعات موجود در داده هایی با حجم زیاد استفاده از روش های کلاسیک آماری به تنهایی کارا نیست. ایجاد ارتباط بین روش های آماری و علوم رایانه ای، سبب می شود که روش های کارا و سریعی برای استخراج اطلاعات نهفته ی مجموعه ای بزرگ از داده ها ارائه گردد و منجر به طیف گسترده ای از بینش ها و منافع شود. این اطلاعات به سازمان ها و شرکت ها کمک می کند تا ماهیت کسب و کار را تغییر دهند و در رقابت پیروز گردند. بعضی از این منافع عبارتند از:

•    بهینه سازی

•    شناسایی موقعیت های جدید

•    پیش بینی های دقیق

•    عیب یابی خرابی و تقلب

•    رکورد هایی با جرئیات بیشتر

•    بهبود تصمیم گیری

•    اکتشافات علمی

هدف اصلی این مقاله شناخت و معرفی روشهای مختلف تحلیل داده های بزرگ با استفاده از ترکیب روش های آماری با سایر علوم به ویژه علوم رایانه ای می باشد. در بخش 2 مفاهیم مربوط به داده های بزرگ و روشهای تحلیلی داده ها در حالت کلی معرفی می گردند. با کمک آمار و سایر رشته های وابسته به آن مانند داده کاوی، یادگیری ماشین، شبکه های عصبی، تحلیل شبکه های اجتماعی، پردازش سیگنال، تشخیص الگو، روشهای بهینه ساز ی و تجسم رویکردها می توان اطلاعات نهفته ی مجموعه ای بسیار بزرگ از داده ها را به دست آورد. این روشها دربخش 3 معرفی می گردند. در بخش 4 مدل سازی لگاریتم خطی به عنوان یک روش آماری با رده بندی درخت رگرسیونی که از تکنیک های .یادگیری ماشین می باشد معرفی شده و در یک مثال کاربردی مورد استفاده قرار داده شده است.

پیچیدگی از رویکرد تحلیلی توصیفی به رویکرد تحلیلی تجویزی افزایش می یابد.

-2 مفاهیم و اصطلاحات

-1-2-2 رویکرد تحلیلی توصیفی

-1-2 داده بزرگ

در حالت کلی، داده مجموعه ای یا گروه هایی از اطلاعات مرتبط، به هم است که هر عضو از گروه یا مجموعه دارای صفات و خواص مشترکی با دیگر اعضا در همان مجموعه باشد. ََبرای اینکه یک مجموعه، به عنوان مجموعه داده بزرگ در نظر گرفته شود باید علاوه بر تعریف فوق شامل یک یا چند ویژگی دیگر نیز باشد . بسیاری از این ویژگی ها در ابتدا توسط داگ لانی در اوایل سال 2001 مشخص شده اند. در ادامه نیز تحقیقات مختلفی در زمینه ی شناسایی ویژگی های داده بزرگ انجام شد که پنج ویژگی مهم بر اساس این تحقیقات عبارتند از: حجم، سرعت، تنوع، صحت، ارزش.

-2-2 رویکرد تحلیلی داده بزرگ

رویکرد تحلیلی توصیفی برای پاسخ به پرسش ها در مورد اتفاقاتی که در حال حاضر روی داده است انجام می شود. این شکل از رویکرد تحلیلی، داده ها را برای تولید اطلاعات تعریف می کند.

نمونه پرسش ها عبارتند از:

•    حجم فروش در طی 12 ماه گذشته چقدر بوده است.

•    تعدادتماس های پشتیبانی دریافت شده در طبقه بندی دقت و موقعیت جغرافیایی چقدر است؟

•    کمسیون ماهانه به دست آمده توسط هر عامل فروش چقدر است؟

-2-2-2 رویکرد تحلیلی تشخیصی

رویکرد تحلیل داده یک اصطلاح گسترده به معنای تحلیل محاسباتی نظام مند است و متمایز از تحلیل متداول است. رویکرد تحلیلی داده بزرگ به طور کلی شامل شناسایی، تهیه، آماده سازی و تحلیل مقادیر زیادی از داده های بدون ساختار اولیه برای استخراج اطلاعات معنی دار است که می تواند به عنوان ورودی برای شناسایی الگو ها، غنی سازی داده های موجود و انجام جستجو در مقیاس بزرگ عمل کند.

انواع مختلف سازمان ها از ابزار ها و تکنیک های مختلفی برای رویکرد تحلیلی داده ها استفاده می کنند. برای مثال، در محیط های کسب و کار محور، نتایج رویکرد تحلیلی داده ها می تواند هزینه های عملیاتی را کاهش دهد و تصمیم گیری استراتژیک را تسهیل کند. در حوزه های علمی، رویکرد تحلیلی داده ها می تواند به شناسایی علت یک پدیده به منظور بهبود دقت پیش بینی کمک کند. در محیط های مبتنی برسرویس مانند سازمان های بخش دولتی، رویکرد تحلیلی داده ها می تواند به تقویت تمرکز بر ارائه ی خدمات با کیفیت بالا با کاهش هزینه ها کمک کند.

چهار دسته کلی از رویکرد تحلیلی وجود دارد که توسط نتایج به دست آمده متمایز می شوند:

•    رویکرد تحلیلی توصیفی

•    رویکرد تحلیلی تشخیصی

•    رویکرد تحلیلی پیش بینانه

•    رویکرد تحلیلی تجویزی

انواع رویکردهای تحلیلی مختلف از تکنیک ها و الگوریتم های تحلیل مختلف استفاده می کنند. نکته قابل توجه این است که ارزش و هدف از رویکرد تحلیلی تشخیصی تعیین علت یک پدیده روی داده در گذشته و استفاده از پرسش ها یی است که روی دلیل یک رویداد تمرکز می کنند. هدف از این نوع رویکرد تحلیلی تعیین اطلاعات مربوط به پدیده به منظور ارائه پاسخ به پرسش هایی است که به دنبال علت روی دادن چیزی هستند.

چنین پرسشهایی عبارتند از:

•    چرا فروش یک کالا کم تر از فروش کالای دیگر بوده است؟

•    چرا تماس های پشتیبانی بیشتر از منطقه شرق هستند تا منطقه غرب؟

•    جرا نرخ مجدد بیمار در طی سه ماه گذشته افزایش یافته است؟

-3-2-2 رویکرد تحلیلی پیش بینانه

رویکرد تحلیلی پیش بینانه در تلاش برای تعیین نتیجه رویدادی که ممکن است در آینده روی دهد، انجام می شود. با رویکرد تحلیلی پیش بینانه، اطلاعات برای تولید دانشی که به این دسته اطلاعات مربوط است تقویت می شود. قدرت و بزرگی ارتباطات، مبنای مدل هایی را که برای تولید پیش بینی آینده بر اساس حوادث گذشته استفاده می شوند، شکل می دهد.

پرسش ها معمولا با استفاده از منطق چه می شود... اگر ، تدوین شود. مانند:

• احتمال اینکه یک مشتری در باز پرداخت وام قصور کند چقدر است اگر پرداخت ماهانه را انجام ندهد؟

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید