بخشی از مقاله
چکیده
فایل های لاگ نقش مهمی را در اجرای بسیاری از سیستم ها و سرویس های امروزی ایفا میکنند و به مدیران و دیگر کاربران این امکان را میدهند که به دانشی در رابطه با عملیات، اجرا و یا حتی مشکلات امنیتی دست یابند، اما با حجمی که فایل های امروزی دارند، انجام چنین کاری به صورت دستی و بدون استفاده از روش های تحلیلی یک امر غیر ممکن است. در اینجا ما روی موضوع تحلیل فایل های لاگ دسترسی سرور های وب کار کرده ایم.
با وجود آنکه داشتن ابزار هایی به منظور تحلیل لاگ های وب ما را در درک روند تجارت الکترونیکی کمک خواهد کرد؛ به دلیل ساختار ناهمگن، ماهیت ناهمگن و نا مرتب فایل های لاگ، پیش پردازش این نوع داده ها به یک امر مهم در داده کاوی آنها تبدیل گشته است؛ لذا در اینجا قصد داریم با کمک متن کاوی به تحلیل فایل های لاگ دسترسی بپردازیم که یکی از زمینه های تحقیقاتی در حوضه وب کاوی می باشد.
مقدمه
یکی از مشکلات اصلی بسیاری از وب سایت ها ارائه اطلاعات بیش از حد برای کاربران است که این موضوع موجب میشود آنها در پیدا کردن مطلب و یا محصولات مورد نظر خود دچار مشکل شوند و مجبور به صرف زمان زیادی برای پیدا کردن مطلب مورد نظر خود بشوند؛ این در حالی است که میتوان این مشکل را با وب کاوی حل نمود. وب کاوی در واقع فرآیند کشف اطلاعات و دانش از داده های وب میباشد.
در وب کاوی این اطلاعات از سمت سرور، مشتری، پروکسی سرور و یا پایگاه داده سازمان جمع آوری میشوند. وب کاوی در واقع یک کاربرد از روش های داده کاوی به منظور یافتن الگو های استفاده کاربران میباشد، که برای این منظور از داده های وب استفاده میشود و هدف آن بهبود بخشیدن به خدماتی است که توسط وب ها به کاربران ارائه میشود، به صورتی که نیاز های کاربران در این راه در نظر گرفته خواهند شد.
با وجود آنکه داشتن ابزارهایی به منظور تحلیل لاگ های وب به ما در درک روند نوظهور تجارت الکترونیکی کمک خواهد کرد، به دلیل ساختار نا همگن، ماهیت نا همگن و نا مرتب فایل های لاگ، پیش پردازش این نوع داده ها به یک امر مهم در داده کاوی تبدیل گشته است. پیش پردازش این نوع داده ها به ما در پردازش صحیح و موثر آنها و استخراج دانش مفید کمک خواهد کرد. پاک سازی داده ها یک گام مهم و اولین گام در این منظور خواهد بود ، تا بتوان داده های مناسبی را در مرحله پردازش در اختیار داشت. لذا در اینجا قصد داریم با کمک متن کاوی به تحلیل فایل های لاگ دسترسی بپردازیم که یکی از زمینه های تحقیقاتی در حوضه وب کاوی می باشد.
کار های مرتبط
یکی از کاربرد های فایل های لاگ آن است که میتوان با کمک آنها عملکرد یک سیستم ، وبسایت یا فرآیند را مورد تحلیل و بررسی قرار داد و یا میتوان با کمک آن به مقایسه اینها پرداهت. بالا بودن حجم فایل ها و تعداد خطوط موجب بالارفتن هزینه زمانی برای پردازش خواهد شد؛ در - Fageeri, S. O. and R. Ahmad, 2014 - یک روش دو دویی جدید برای اجرای تحلیل توالی مجموعه داده فایل های لاگ برای چنین مشکلاتی ارائه شده است. در واقع نویسنده در اینجا از برخی متد های موجود استفاده نموده است و پس از شناسایی مشکلات موجود در آنها به بهبود آنها پرداخته است و نتایج آزمایش نشان میدهند که با وجود بالا بودن حجم داده ها میتوان یک تحلیل و بررسی سریع را روی فایل های لاگ انجام داد.
فایل های لاگ توسط وسایل و سیستم های مختلفی در فرمت های متفاوت تولید میشوند و تحلیل مناسب این فایلها به ما کمک میکند به اطلاعات مفیدی در رابطه با جوانب مختلف سیستم برسی. در - Martin, N., et al. ,2017 - رایانش ابری برای این کار مناسب دیده شده است، چرا که میتواند نرخ بالای تولید، حجم بالا و تنوع فایل های لاگ را مدیریت نمود. از دیگر کاربرد های لاگ ها در این است که میتوان به کمک آنها یک خطا و یا ناهنجاری را در یک سیستم نرم افزاری و یا فرآیند پیدا کرد و یا حتی میتوان آنها را پیشبینی نمود و علاوه برای میتوان با توجه به فایل های لاگ به پیشبینی رفتار سیستم و یا فرآیند در آینده پرداخت و یا آنها را خوشه بندی نمود. در - Wang, J., et al ., 2017 - یک متد کلی پیشبینی خطا براساس کلاس بندی ارائه شده است و از تکنیک های یادگیری ماشین و دسته بندی تجهیزات به کلاس های: امکان شکست وجود ندارد و شکست محتمل است، برای تحلیل لاگ واقعه استفاده کرده است.
فرآیند کاوی را میتوان به عنوان پیوند گم شده میان فرآیند های تحلیلی مبتنی بر مدل و تکنیک های تحلیلی وابسته به داده دانست. در - de Leoni , M., et al., 2016 - یک چهار چوب کلی برای استخراج اطلاعات لازم از لاگ های واقعه ارائه شده است؛ این کار به وسیله تعریف یک مورد تحلیلی که از سه عنصر - یک خصوصیت وابسته، چندین خصوصیت مستقل و تکنیک فیلتر - تشکیل شده است، انجام گرفته است که میتوان به کمک آنها یک مساله دسته بندی را ایجاد نمود.
امروزه سرویس های وب با افزایش روز افزون تحدید های متعدد روبرو هستند. از آنجایی که تقریبا لاگ ها در تمام سرور های وب جمع آوری میشوند ، تحلیل آنها میتواند برای کمک به جلوگیری از نفوذ مفید باشد. در - Juvonen, A., et al. ,2015 - یک چارچوب برای پیدا کردن رفتار های غیر عادی از این لاگ ها ارائه شده است ؛ در واقع یک روش شناسایی ناهنجاری ها برای تحلیل لاگ های HTTP ارائه شده است و برای این منظور از روش های کاهش بعد کمک گرفته شده است. پیش آمد های تصادفی، تحلیل کلی مؤلفه ها و نقشه توزیع را برای شناسایی ناهنجاری ها مقایسه نموده است و در نتیجه چهارچوب ارائه شده توانایی های آنلاین دارد ، یعنی میتواند به صورت آنلاین ناهنجاری ها را در لاگ های HTTP شناسایی نماید و همچنین میتواند ناهنجاری های واقعی را از پایگاه داده پیدا کند و میتواند توانایی های سیستم را ارزیابی نماید.
با افزایش روز افزون گسترش سرویس های وب ، روز به روز تحقیقات بیشتری در زمینه قابلیت دسترسی و استقلال سرویس های وب صورت میگیرد. از آنجایی که ممکن است خطا های ناخواسته ای در اجرای سرویس های وب در زمان ها و سطوح مختلفی رخ بدهد، استفاده از تحلیل فایل های لاگ برای تشخیص این خطا ها مناسب ترین روش بنظر میرسد.
در - Greiff, S., et al ., 2015 - با در نظر گیری این موضوع که بیشتر فایل های لاگ تولیدی در فرمت xml و یا JSON تولید میشوند، که انعطاف پذیری خوبی دارند. قابلیت تبادل اطلاعات را هم دارا میباشند، مساله کلاس بندی خطا های لاگ های semi-structured به عنوان یک چالش در نظر گرفته شده است؛ در واقع از شباهت میان فایل های لاگ برای تشخیص خطا در اجزا سازنده سرویس های وب استفاده کرده است.
به هر حال بیشتر راه حل های موجود روی تحلیل محتوی لاگ ها متمرکز میشوند و اطلاعات ساختاری را نادیده میگیرند و در نتیجه اجرای ضعیفی خواهند داشت، در حالی که در اینجا برای بهبود درستی کلاسبندی خطا ها از شباهت ساختاری فایل های لاگ استفاده شده است و یک راهکار یادگیری Bayesion مبتنی بر تشابه ارائه شده است.
یکی از ویژگی های دیگری که تحلیل لاگ ها دارد ، آن است که میتوان با کمک آنها اطلاعات مفیدی را در رابطه ریسک ها موجود در فرآیند ها و نواقص ایمنی موجود بدست آورد. امروزه شبکه های ICT در زندگی روزمره ما نفوذ کرده اند، واقعه نگاری متمرکز به ما اجازه میدهد که دنباله event هایی که در شبکه رخ میدهند را بگیریم و در نتیجه یک مکان مرکزی برای ذخیره لاگ ها برای شناسایی به موقع مشکلاتی همانند پایین بودن کیفیت سرویس، مشکلات اجرایی یا مشکلات مربوط به حملات سایبری ایمنی مورد نیاز است؛ و این در حالی است که تست روی محصول هایی که در زمان واقعی در حال اجرا هستند ساختار شبکه را در معرض خطا یا موقعیت های ناپایدار قرار میدهد .
راه حل این مشکل در - Theis, F. J., et al., 2003 - طراحی و اجرای یک محیط تست با درجه واقع گرایانه بالا معرفی شده است، یعنی راح حل گودال شن که یک راه حل متفاوت و جدید را به همراه خواهد داشت. ایده در اینجا آن است که یک توالی از event های شبکه واقعی تولید بشود که بازتابی از رفتار واقعی سیستم باشد و بتوان بعدا از آن برای به چالش کشیدن ابزار های نرم افزاری تحلیل شبکه استفاده نمود.
مدیریت ریسک در فرآیند های تجاری یک کلید مهم برای بیشتر شرکت ها است. شرکت ها فرآیند های تجاری خود را استاندارد و خودکار میکنند تا کارایی فرآیند های خود را افزایش بدهند و ریسک های عملیاتی خود را به حداقل برسانند. به هرحال این که بخواهیم طی طراحی فرآیند ها تمام ریسک های فرآیند را از بین ببریم دشوار است، چرا که فرآیند ها معمولا به صورت پیچیده و چالش برانگیز اجرا میشوند و به منابع انسانی تکیه دارند.
در - Pika, A., et al., 2016 - یک راه کار و ابزار پشتیبان برای ارزیابی ریسک های کلی فرآیند و پیشبینی برآمد های فرآیند مبتنی بر تحلیل اطلاعات ذخیره شده در لاگ های واقعه ها ارائه شده است. این راه کار میتواند به مدیران در ارزیابی ریسک های کلی فرآیند های تجاری خود، دنبال کردن ریسک های کلی، شناسایی تغییرات و برآمد های فرآیند، کمک کند.
حملات روی کنترل دسترسی سیستم عامل ها به یک مساله قابل توجه و عام تبدیل شده است. این نوع از تحدید های امنیتی در مصنوعات قانونی مثل لاگ های تصدیق ذخیره میشود. محققین قانونی عموما این لاگ ها را برای تحلیل چنین حوادثی بررسی میکنند. در - Studiawan, H., et al., 2017 - یک روش جدید برای شناسایی خودکار یک ناهنجاری در لاگ کنترل دسترسی یک سیستم عامل ارائه شده است؛ در واقع به خوشه بندی گراف ها و شناسایی ناهنجاری های مربوط به لاگ های کنترلی در زمینه اهداف قانونی پرداخته است.
همانطور که قبل تر گفته شد ، از مشکلاتی که در مواجه با فایل های لاگ با آن مواجه هستیم حجم بالای برخی فایل های لاگ و یا شلوغ بودن آنها است. لاگ های همزمان مشکلات زیادی دارند که باید قبل آن که از آنها برای ورودی برای تحلیل استفاده بشود حل شوند، آنها ممکن است که شامل داده های نادرست یا غیر صریح باشند، ممکن اس چندین event مهم گزارش نشده باشند یا ممکن است شامل داده هایی باشند که لازم است با دقت تفسیر شوند.
در - Suriadi, S., et al. ,2017 - یک مجموعه از مشکلات کیفیتی داده توصیف شده اند که از تجربه نویسنده در ایجاد تحلیل های فرآیند کاوی گرفته شده اند، عموما در لاگ های واقعه فرآیند کاوی پیدا میشوند یا این که هنگام آماده کردن لاگ های واقعه از منابع داده خام با آنها برخورد شده است. نشان داده شده است که الگو ها در تنوع دامنه به عنوان روشی برای توصیف مساله ها و راح حل هایی که به صورت عام پیش می آیند استفاده شده است. کمک اصلی این مقاله در نشان دادن این مساله است که یک راهکار مبتنی بر الگو برای مستند سازی مشکلات کیفی لاگ های واقعه های عام است.
فرآیند کاوی تقریبا یک روش جدید برای استخراج مدل فرآیند از لاگ های اجرایی واقعی برای رسیدن به درک بهتری از فرآیند های تجاری در یک سازمان و تصمیم گیری پشتیبان است. در - Cheng, H.-J. and A. Kumar ,2015 - یک روش برای بهبود بخشیدن به لاگ های شلوغ ارائه شده است و آن را "درمان لاگ ها" نامیده است؛ در واقع روی لاگ های شلوغ فرآیند کاوی با این هدف انجام شده است که بررسی کند آیا اصلاح لاگ ها به بهبود عملکرد کمک خواهد کرد یا خیر.
از دیگر کاربرد های تحلیل فایل های لاگ که میتوان به آن اشاره نمود، آن است که میتوان با استفاده اس آن به پیدا کردن الگو های رفتاری یک سیستم یا فرآیند و یا کاربران سیستم پرداخت، همچنین میتوان با تحلیل الگو های رفتاری به ساخت مدل های فرآیند پرداخت. کاوش الگو های رفتاری میزبان از لاگ های عظیم نقش بزرگ و حیاتی را در تشخیص ناهنجاری ها و مدیریت شبکه های بزرگ ایفا میکند. تحلیل شبکه و لاگ های امنیتی یک کار بسیار دشوار است چرا که اول از همه این که همه روزه لاگ های عظیمی تولید میشوند، دوم این که لاگ های دنیای واقعی معمولا چند متغییره هستند و با گذشت زمان تکامل مییابند و سوم، لاگ هایی که رفتار میزبان یکسانی را ذخیره میکنند ممکن است محدوده ای میان چندین لایه شبکه ، سرویس ها و پروتکل ها داشته باشند و در نهایت، ناهنجاری های شبکه معمولا دارای چندین رفتار هوشمند هستند که در مقادیر زیاد در لاگ های عادی پراکنده شده اند.
در - Ya, J., et al., 2017 - یک راه کار جدید به نام لاگ کاوی برای الگو های رفتاری ارائه شده است تا محدودیت کار های قبلی را برطرف نماید. به گفته نویسنده اکثر کار هایی که قبلا انجام شده اند یک تحلیل میکروسکوپی لینک های event های شبکه را ارائه داده اند اما در تحلیل میکروسکوپی تکامل الگو های رفتاری هر میزبان در شبکه شکست خورده اند؛ در وقع در این مقاله با استفاده از log های امنیتی و شبکه های عظیم به بررسی و کاوش الگو های رفتاری سیستم های میزبان پرداخته شده است.
تحلیل داده ها
توان عملیاتی درخواست های انجام شده در طول زمان: توان عملیاتی در واقع اندازه گیری تعداد واحد های کاری است که درحال پردازش هستند. هنگامی که قصد اندازه گیری فعالیت را داریم لازم است که بررسی شود چه تعداد درخواست در طول زمان به سرور ارسال میشوند و این همان توان عملیاتی است. درک توان عملیاتی نسبتا ساده است.