بخشی از مقاله
خلاصه
این مقاله به بررسی مشکلات سبک تصویر، زیبایی شناسی و برآورد کیفیت می پردازد و از رویکرد آموزش شبکه عصبی سود می برد. برای بهره بردن از سبک زیباشناسی نیاز به تشخیص اجزاء اشیاء نیز، داریم که در این مقاله روشی را برای یادگیری مجموعه متنوعی از بخش های مشخص کننده اشیا ارائه می کنیم. یکی از بزرگترین چالش ها در تشخیص شیء این است که تصاویر گرفته شده را باید از گروه های متنوع بیرون کشید و آنها را کنار هم قرار داد. شبکه های عصبی کانولوشن و عمیق موجود، اغلب برداشتی از یک پچ، مانند بازده رو به پایین از تصویر، مثل یک نمونه مورد آزمایش می باشد. هرچند یک پچ ممکن نیست که همیشه بتواند بخوبی تمام تصویر را ارائه دهد، بلکه ممکن است باعث ابهاماتی در طول آموزش شود. ما یک رویکرد آموزش شبکه متراکم عمیق و چند پچی را ارایه دادیم. این مدل این امکان را به ما می دهد که مدل هایی را با استفاده از پچ های چندگانه تولید شده از یک عکس تهیه کنیم. ما با ساختن ستون های چندگانه مشترک در شبکه عصبی و تغذیه ی پچ های چندگانه برای هر ستون به این امر دست یافتیم. مهمتر از آن، ما دولایه ی شبکه جدید - آماری و مرتب سازی - را برای جمع آوری آن پچ ها ارائه کردیم. ما تاثیر شبکه متراکم عمیق و چند پچی را روی سه مشکل، یعنی شناخت سبک تصویر، طبقه بندی کیفیت زیباشناختی و برآورد کیفیت تصویر نشان دادیم.
-1 مقدمه
مشکلات سبک های تصویر، زیبایی شناسی و برآورد کیفیت به طور فعال در طول دهه گذشته 17 - ، 24، 26، - 18 با هدف تجهیز کامپیوتر با قابلیت درک زیبایی شناسی، سبک و کیفیت بصری مانند سیستم بینایی انسان مورد بررسی قرار گرفته اند. بر خلاف وظایف طبقه بندی تصویر و تشخیص شیء، کلید این مشکلات دریافت هر دو اطلاعات جامع و دقیق ریز دانه ها با وضوح بالا، همانطور که به ترتیب در - 17 - و - 24 - آمده است، می باشد. ما روی مساله یادگیری یک مجموعه از تشخیص دهنده های اجزا با استفاده از یک مجموعه از نمونه ها با مرزهای مشخص تمرکز داریم. یک مجموعه اجزای خوب شامل ویژگی های زیر می باشد :
· هر تشخیص دهنده اجزا باید مجزا باشد.تکه های مختلف هر شی باید امتیاز بیشتری از قسمت های مربوط به پس زمینه داشته باشند.
· هر تشخیص دهنده اجزا روی تکه خاصی از شی یا کل شی از زاویه دید معینی متمرکز می شود. اجزا باید نمایانگر حالت شی باشند.
· یک مجموعه از اجزا باید نمونه های مربوط به شی مورد نظر را پوشش دهد. حداقل یک بخش از تشخیص دهنده اجزا باید روی هر نمونه از شی متمرکز شود.
شبکه های عصبی کانولوشن عمیق، اثربخشی خود را برای وظایف مختلف طبقه بندی تصویر به اثبات رسانده اند. اما بخش اعظم کار، جزئیات رزولوشن بالای ریز دانه ها را در تصاویر نادیده گرفته است. چنین جزئیاتی از ریز دانه ها، در برنامه های بسیار مفیدی مانند برآورد کیفیت تصویر - 17 - ، طبقه بندی تصویر از نظر زیبایی شناسی و طبقه بندی سبک تصویر - 24 - نشان داده شده است. اکتساب جزئیات ریز دانه ها چالش برانگیز است، زیرا اطلاعات در تصاویر اصلی و به نسبت با رزولوشن بالا - به عنوان مثال، 1024 × 768، - 2560 × 1920 قرار دارد.
برای کسب جزئیات ریز دانه ها با استفاده از رویکردهای آموزش شبکه عمیق، مطالعات قبلی 24 - ، - 17 نشان داده، هر تصویر با یک پچ به طور تصادفی بریده شده است و پچ با لیبل تصویر به عنوان یکی از نمونه های آموزش جفت می شود. چنین رویکردی ابهاماتی را در نمونه های آموزشی مانند ویژگی های زیبایی شناسی / سبک / کیفیت در یک پچ بوجود می آورد که ممکن است به خوبی نمایانگر اطلاعات ریز دانه ها در کل تصویر نباشد. برای پرداختن به این موضوع، ما مشکل اکتساب را با ارائه ی یک تصویر ورودی باکمک یک مجموعه کوچک و یا مقادیری از پچ های بریده شده از آن و همچنین بکارگیری مجموعه ای دارای لیبل آموزش تصویر، تدوین و فرموله کردیم و معماری شبکه عصبی عمیق جدیدی را برای حل مشکل پیشنهاد دادیم. نمونه ها در یک مجموعه، نامرتب هستند. هدف اصلی، تجمیع نمونه ها می باشد. در این کار، ما یک معماری شبکه تجمیع عمیق و چند پچی - 1DMA-NET - را برای تضمین اکتساب ریز دانه ها و با استفاده از پچ های متعدد برش خورده از یک تصویر را پیشنهاد دادیم.
در این مقاله، ما دو لایه جدید را پیشنهاد می دهیم: لایه آماری و لایه ی مرتب سازی تا امکان فعالسازی ادغام منابع ورودی متعدد فراهم آید. لایه آماری، توابع آماری مشترک را به منظور استقلال خروجی از دستورات ورودی، اعمال می کند و لایه مرتب سازی به عنوان اهرمی برای تابع مرتب سازی به جهت رسیدن به هدف مشابه عمل می کند. با ایجاد و ساختن دو لایه جدید، ما دو ساختار تجمیع مختلف جاسازی شده در شبکه های عصبی عمیق چند پچی را به منظور حمایت از آموزش شبکه تجمیع عمیق چند پچی توسعه دادیم. ما تاثیر مدل های آموزش داده شده با معماری شبکه های عصبی را در سه برنامه ارائه نمودیم: طبقه بندی سبک تصویر، طبقه بندی کیفیت زیباشناختی و برآورد کیفیت تصویر. بخش های اصلی مقاله ما شامل چهار مورد است.
- ما به معرفی معماری های جدید شبکه عصبی بمنظور حمایت از اکتساب از چند پچ می پردازیم. بطور خاص، ما دو لایه شبکه جدید را به همراه استراتژی های ادغام آنها بمنظور تضمین ادغام های چندپچی پیشنهاد می کنیم.
- روش ما تعداد متوسطی از الگوهای اجزا را یاد می گیرد که ممکن است مربوط به کل شی یا بخش هایی از آن باشد، و از آنها بدون مدل فضایی استفاده می کند. روش ما مجموعه متنوعی از تشخیص دهنده های اجزا را برای تشخیص، پیش بینی حالت و ... فراهم می کند که می توانند به طور افزایشی آموزش دیده و به طور مجزا مورد استفاده قرار بگیرند.
- ما رویکرد شبکه مدار عصبی را برای سه برنامه بصری بکار بردیم که تا حد زیادی به چزئیات ریز دانه ای وابسته است و بهبود قابل توجهی را در طول وضعیت هنری نشان دادیم.
- با بکار گیری هر دو اطلاعات جامع تصویر و جزئیات بدست آمده از ریزدانه ها با کمک DMANet، ما عملکرد را در طبقه بندی سبک تصویر و طبقه بندی زیباشناختی تصویر تا اندازه زیادی بهبود دادیم.
-2آثار مرتبط
-1-2تشخیص شی با استفاده از ویژگی های محلی به اشتراک گذاشته شده
اهمیت مدل های مبتنی بر اجزای واضح برای تشخیص شی و تحلیل هنوز به خوبی درک نشده است. مطالعات گذشته عملکرد قوی بدون اجزای واضح را با استفاده از توصیف کننده های کلاستر بندی شده مشترک که برای نواحی جعبه احاطه کننده پیشنهادی مورد استفاده قرار گرفته است را، نشان می دهد. اخیرا، نواحی پیشنهادی را با استفاده از ویژگی های شبکه های عصبی کانوولوشن یادگرفته شده - . - learned اما تحقیقات نشان می دهد که مکان یابی تشخیص دهنده های مبتنی بر اجزای صریح، برای پیش بینی ویژگی ها، مهم و ضروری است حتی وقتی ویژگی های CNN مورد استفاده قرار می گیرند . روش ما می تواند بطور بالقوه برای یادگیری مدل های مبتنی بر اجزا وقتی که از حاشیه گذاری استفاده نمی شود ،بکار برده شود .
-2-2شبکه های عصبی عمیق
موفقیت حاصل شده از رویکرد شبکه عصبی عمیق برای طبقه بندی عکس - 21 - ، از بسیاری از تحقیقات در مورد اکتساب عمیق و کاربرد آنها در علم بصری الهام گرفته است. آثار اخیر - 22 -17 -30-9 - بر روی کاربرد آموزش شبکه ی عصبی عمیق در برنامه های بصری مختلف تمرکز داشتند. آنها بیشتر توانستند با تغییرات کمی در ساختارهای شبکه - یعنی افزودن یک لایه یا یک ستون - یا تغییر استراتژی آموزش - یعنی تنظیم دقیق - به پیشرفتهایی دست یابند. در کنار تکنیک های مفیدی مانند ReLU، افت اکتساب و تقویت داده ای که در - 21 - بدان پرداخته شده است، ما متوجه دو ایده کلیدی شدیم که به نتایج امیدوار کننده ای در مشکلات طبقه بندی منجر می شود:
الف - رزولوشن چندگانه عکس. برنامه های مختلف بصری نیاز به اطلاعاتی از وضوح متفاوت تصویر دارند. در طبقه بندی تصویر، شبکه های عصبی عمیق کانولوشن - 2CNN - موفقیت های بزرگی را با آموزش در تصاویر با سایز 3×256×256 به دست آورد. با این حال، در برآورد کیفیت تصویر، زیبایی شناسی تصویر و طبقه بندی سبک تصویر، آموزش شبکه های عصبی عمیق در تصاویر با رزولوشن نسبتا بالا به بهبود عملکرد به طور قابل توجهی کمک می کند 24 - ، . - 17
در 24 - ، - 17، تنها یک پچ که به طور تصادفی بریده شده به نمایندگی از کل تصویر استفاده شده است. در 27 - ، 20، 15، - 10 شبکه های عصبی در تصاویر کوچک آموزش داده شدند و برای تصاویر چند رزولوشنی در مرحله تست به کار رفتند. در این مقاله، ایده اصلی این است که تصویر ورودی اصلی و با وضوح بالا با استفاده از پچ های متعدد ارائه شده و شبکه تجمیع چند پچی عمیق که به طور مستقیم از کیسه های پچ های چندگانه بدست می آیند، ساخته شود.
ب - شبکه ی عصبی چند ستونی. شبکه ی عصبی چند ستونی 5 - ، 1، - 24 خود را به عنوان رویکردی موثر در بهبود عملکرد شبکه های عصبی تک ستونی در مشکلات طبقه بندی متنوع اثبات کردند. تحقیقات اخیر که انگیزه آنها ناشی از رویکرد های بخش محور - یعنی - 29 - 16 -7 - 3 می باشد، تلاش در جهت آموزش شبکه های عصبی کانولوشن چندگانه در بخش های منظم بود. ژانگ و دیگران CNN های مطرح شده ی نرمال را در پچ های بخشی منظم آموزش دادند که ویژگی های اکتسابی اش با بخش های خاصی تحت نمایش ها و وضعیت های خاص - 39 - مرتبط بود. یک رویکرد مشابه، برای تعیین طبقه ی ریزدانه ای در - 38 - بکار رفت.
در شبکه های عصبی چند ستونی، شخص نیز می تواند ساختارهای چند ستونی را برای به اشتراک گذاشتن وزنها و ادغام خروجی های چند ستونی با استفاده از اشتراک حداکثر، محدود کند. با وجودیکه مقاله ما استراتژی مشابهی را در محدود کردن ساختارهای چند ستونی برای اشتراک وزن دنبال می کند، اما از سه نظر متفاوت است: -1 ویی و دیگران به طور ضمنی فرض کردند که هر پچ بریده شده با یکی از لیبل های تصویر در یک مشکل طبقه بندی تصویر چند ستونی مرتبط است، در حالی که ما تمام مجموعه ی پچ چندگانه را به عنوان یک نونه ی آموزشی در چهارچوب عمیق ارائه شده بکار بردیم.