بخشی از مقاله

چکیده :

در زمینه بینایی ماشین و طبقه بندی تصاویر تا کنون مدل ها و روش های بسیاری معرفی شده است ،اما به صراحت می توان گفت که الگوریتم ها و مدل های مختلف پژوهش های مبتنی بر شبکه عصبیٌ جای خود را در میان طبقه بندی تصاویر به خوبی باز کرده اند . جدا از کاربرد هایی که این علم در شناسایی الگوها، پردازش تصویر و رویت، هوش مصنوعی، کنترل ربات ها دارد، ابعاد تاثیر گذاری در زندگی روزمره و دنیای واقعی مثل دامنه های کشاورزی ، پیش بینی آب و هوا ، علوم پزشکی و مهندسی و راه و غیره داشته است ، دقت الگوریتم و مسیر اجرایی در تشخیص و طبقه بندی بسیار مهم است .

هدف اصلی این معماری ها این است که مدلی شبیه به سیستم داخلی مغز انسان برای تجزیه و تحلیل سیستم های مختلف بر اساس تجربه ارائه دهند ، از این رو غایت نهایی این الگوریتم ها این است که بتوان در شبکه های مصنوعی طوری مسیر آموزش برای یادگیری عمیقٍ را طی کرد تاشبکه تشخیصی نزدیک مغز انسان داشته باشد ، این خود جنبه دیگری از معماری هایی است که می خواهیم در اینجا به آنها نفوذ کرده و بدانیم الگوریتم چقدر می تواند شبیه به مغز انسان عمل کند و تصاویر را تشخیص دهد؟

این همان مبحث دقت الگوریتم است. ثابت شده است از بین انواع شبکه های عصبی، شبکه های عصبی کانولشنال 3 - CNN - معمولا دقت خوبی را در طبقه بندی تصاویر ارائه می کنند . یکی از ایراداتی که میتوان به شبکه های عصبی عمیق وارد کرد این است که عمق بالا می تواند باعث افزایش هزینه محاسباتی در عملکرد تشخیص و طبقه بندی تصویر شود . به همین در این مطالعه به بررسی معماری می پردازیم که از مدلی با چندین واحد GPU کمک میگیرد .

-1  مقدمه

با حضور در عصری که هر روز حجم بیشتری از داده ها تولید می شود و به عبارتی با انفجار اطلاعات و داده روبرو هستیم ، پیدا کردن روشی که بتوان این پایگاه داده های عظیم را پردازش کرده و از /لنها اطلاعات مورد نظر را بدست آوریم نیز خود یک جنبه مهم در پژوهش ها است ، از این رو در نتیجه این مطالعه به موضوع پردازش تصاویر بزرگ مقیاس با هدف دستیابی به اطلاعات استخراج شده از پایگاه داده های بزرگ تصاویر با غلبه بر محدودیت چشم انسان و محدودیت توان بشر از نظر زمانی برای پردازش این پایگاه داده ها با تکیه بر علم هوش مصنوعی ، و شبکه های عصبی کانولوشن عمیق پرداخته شده است .

در مدل معرفی شده در این مطالعه یک شبکه عصبی پیچیده بزرگ و عمیق آموزش دیده است تا 1.2 میلیون عکس با وضوح بالا را در پایگاه ImageNet LSVRC-2010 به 1000 کلاس مختلف طبقه بندی کند. بر اساس داده های آزمایشی، نرخ خطاهای TOP 1 و 5 بالا به ترتیب 37.5 و 17.0 به دست آمد که به طور قابل توجهی بهتر از مطالعات قبلی است. شبکه عصبی که دارای 60 میلیون پارامتر و 650 هزار نورون و شامل پنج لایه کانولوشن است که بعضی از آنها توسط لایه max-pooling دنبال می شوند و سه لایه کاملا متصل با حداکثر 1000 مسیر خروجی نهایی ایجاد شدخ با تابع softmax می باشد .

برای آموزش سریعتر، از نورونهای غیر اشباع و اجرا با GPU بسیار کارآمد استفاده شده است. برای کاهش OVERFITTING در لایه های کاملا متصل، از یک روش قانونی به تازگی توسعه یافته به نام -drop out"رها کردن" استفاده شده که بسیار موثر بوده است. می توان چالش هایی که این مدل برای رویارویی با آنها طراحی شده است را به صورت زیر در نظر گرفت :

-1  مقابله با مساله overfitting در طبقه بندی مجموعه تصاویر بزرگ .

-2 در نظر گرفتن مدل های قدرتمندتر برای آموزش داده ها با استفاده از مجموعه های آموزشی بسیار بزرگ تر .

-3 استفاده از GPU های کارامد برای بالا بردن سرعت عملکرد.

-2 پیشینه مطالعه

پیش از طبقه بندی ImageNet با کمک شبکه های CNN عمیق رویکردهای فعلی برای شناسایی شی از روش های یادگیری ماشین استفاده می کنند. برای بهبود عملکرد آنها می توان مجموعه داده های بزرگتری را جمع آوری کرده، مدل های قدرتمندتری را یاد بگیریم و از تکنیک های بهتر برای جلوگیری از OverFiting استفاده کنیم. تا همین اواخر، مجموعه داده های تصاویر نشانه گذاری شده نسبتا کوچک بودند به عنوان مثال ده ها هزار تصویر -

تشخیص ساده وظایف می تواند به خوبی با مجموعه داده هایی در این اندازه کاملا حل شود، به خصوص اگر آنها با تحولات برچسب نیز تکمیل شوند . به عنوان مثال، نرخ خطای فعلی در شناسایی MNIST - کمتر از 0.3 است - به عملکرد انسان نزدیک می شود[4] ما اشیاء در تنظیماتی واقع گرایانه متغیرهای قابل توجهی را نشان می دهند، پس باید یاد بگیرند آنها را تشخیص دهند، و لازم است از مجموعه های آموزشی بسیار بزرگ تر استفاده شود. و در واقع، کمبودهای مجموعه داده های تصویری کوچک وجود دارد ، اما اخیرا امکان جمع آوری داده های برچسب دار با میلیون ها عکس ممکن شده است . مجموعه داده های جدید بزرگتر عبارتند از [5] که شامل صدها هزار تصویر کاملا جداسازی شده و ImageNet که شامل بیش از 15 میلیون تصویر با وضوح بالا با بیش از 22000 دسته است.

برای یادگیری در مورد هزاران اشیاء از میلیون ها عکس، نیاز به یک مدل با ظرفیت یادگیری بزرگ است. با این حال، پیچیدگی عظیمی از کارکرد شناسایی شیء بدین معناست که این مشکل را نمی توان حتی با مجموعه ای از داده های بزرگ مانند ImageNet مشخص کرد، بنابراین مدل باید دانش قبلی را برای جبران تمام داده هایی که ما نداریم داشته باشد. شبکه های عصبی کانولوشن یکی از چنین مدل طبقه بندی ها را تشکیل می دهند. ظرفیت آنها می تواند با تغییر عمق و گستردگی آنها کنترل شود، و آنها همچنین مفروضات قوی و عمدتا صحیح از طبیعت تصاویر - یعنی آمار و موقعیت مکانی وابستگی های پیکسلی - را ایجاد می کنند. بنابراین، در مقایسه با شبکه های عصبی استاندارد با لایه های مشابه ، CNN ها دارای اتصالات و پارامتر کمتر و آموزش ساده تر هستند، در حالیکه عملکرد آنها به لحاظ نظری، تنها کمی بدتر می شود.

برای مقابله با مشکل overfitting ، با شروع [6] LeNet-5شبکه های عصبی کانولوشن - - CNN یه طور متداول دارای یک ساختار استاندارد لایه ای کانولوشن - پیچشی - بودند - به صورت اختیاری با نرمال سازی کنتراست و حداکثر سازی دنبال می شدند - که به یک یا چند لایه به طور کامل متصل می شوند. گزینه های اجرا شده از این مدل طراحی پایه در تاریخچه مطالعات طبقه بندی تصویر رایج هستند و بهترین نتایج را در MNIST، CIFAR و به ویژه در مورد چالش طبقه بندی ImageNet اجرا شده اند. برای مجموعه داده های بزرگتر از قبیل Imagenet، این پروسه با افزایش تعداد لایه ها و اندازه لایه ها انجام می شد ، در حالی که استفاده از dropout برای رفع مشکل over fiting استفاده می شده است .

همانطور که حداکثر سازی لایه ها منجر به از دست دادن اطلاعات مکانی دقیق می شوند، معماری شبکه کانولوشن نیز به صورت موفقیت آمیز برای محلی سازی ، تشخیص شی و تخمین هایی مشابه مغز انسان استفاده می شود . این موضوع با الهام از یک مدل عصب کورتکس بینایی مغز توسط Serre و همکارانش شبیه سازی شد [7] که در این مدل از مجموعه ای از فیلترهای گابور - - Gabor filters ثابت با اندازه های مختلف برای مقابله با مقیاس های چندگانه استفاده کرد. از یک استراتژی مشابه در مطالعه تشخیص و طبقه بندی حالات صورت [8] استفاده شده است .

مورد دیگر رویکردی است که Lin و همکارانش ارائه دادند . Network-in-Network یک رویکرد است که توسط Lin و همکارانش[9] به منظور افزایش قدرت بازنمایی شبکه های عصبی پیشنهاد شد . در این مدل یک لایه کانولوشن 1*1 اضافی به شبکه اضافه می شود، تا عمق آن افزایش یابد. ولی در تنظیمات مدلی که برای طبقه بندی عمیق با شبکه عصبی پیچشی استفاده شده است،لایه های 1*1 کانولوشن اضافی دارای اهدفی دوگانه هستند: مهمترین آنها، به طور عمده بکار گیری آنها به عنوان ماژول های کاهش ابعاد برای حذف تنگناهای محاسباتی است، که در غیر این صورت این لایه اندازه شبکه را محدود می کند. مورد دوم اینکه این مدل در کنار افزایش عمق امکان افزایش عرض شبکه را بدون مجازات عملکرد به صورت قابل توجهی فراهم میکند.

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید