بخشی از مقاله

چکیده

پیشرفت تکنولوژی و افزایش روز افزون دستگاههای تصویربرداری، منجر به تولید حجم عظیمی از تصاویر و اطلاعات شده، که سازماندهی و مدیریت آنها، تبدیل به موضوع مهمی در زمینه پردازش تصویر گشتهاست. حاشیه نویسی خودکار تصاویر، برچسبهایمتنی مطابق با محتوای بصری تصاویر را بصورت خودکار ایجاد میکند، که این امر میتواند شکاف معنایی میان تصاویر را به میزان قابل توجهی کاهشدهد. در این مقاله، مدل پیشنهادی ابتدا بردارهای ویژگی تصاویر را استخراج کرده و با استفاده از الگوریتم بهینهسازی ازدحام ذرات، کاهش ویژگی انجام میدهد. سپس با استفاده از فاصلهی اقلیدسی، تصاویر مشابه را بدست آورده و از برچسبهای این تصاویر استفاده میکند تا برچسبهایی برای تصاویر پیشنهاد داده دهد. برای آزمایش مدل موردنظر نیز از 8 دسته عکس مختلف، که هر دسته شامل 100 عکس میباشد، استفاده شده که در ارزیابیهای انجام شده مقدار فراخوانی و دقت به ترتیب برابر 0.6757 و 0.6202 گردیدهاست.

واژگان کلیدی: پردازش تصویر، حاشیهنویسی خودکار، الگوریتم بهینهسازیازدحام ذرات، فاصلهی اقلیدوسی، انتخاب ویژگی.

-1 مقدمه

تصویر در زندگی آدمیان بیش از آنکهبُعد روایتی داشته باشد، از یک ابژه فکری بروز پیدا میکند. تصویر تنها تجربهای است که هرچیزی را قبل از شناخت، معرفی میکند. درحقیقت تصویر تنها پدیدهای است که پس از ثبت از بین نمیرود مگر به خواسته عکاس. ازاینرو این همآغوشی مخاطب و مؤلف درزمانی شکل میگیرد که عکس به گونهایی، نامتناهی سازی شده باشد که قبل از القای واقعیت به تجسمی از رویداد تبدیلشده و بیننده را متحیر کند. بسیاری از تصاویری که انسان در زندگی به ثبت میرساند بهطور ناخواسته به دامنهای از تاریخ تبدیل میشوند و یک یادگاری نهفته در همزیستی را به همراه دارند. این یادگاری ممکن است از دوران کودکی آغاز شود و تا دوران پس از مرگ هم ادامه یابد.

امروزه با توجه به گسترش سریع فناوری و وجود تصاویر دیجیتال در حجمهای وسیع و همچنین با رشد گسترده تکنولوژیهای مرتبط با اینترنت، تصاویر و ویدئوها به سرعت در حال توسعه هستند. چگونگی ساماندهی و مدیریت این اطلاعات حجیم، خود موضوع مهمی درحوزه فنآوری اطلاعات و به طور مشخص پردازش تصویر است. حاشیهنویسی خودکار تصاویرٌ فرایند انتساب خودکار معانی به تصاویر است که مسئلهای مهم در بسیاری از سطوح مختلف میباشد. مانند بازیابی تصاویر براساس محتواٍ و یا ادراک تصاویر - . - Zhang et al, 2012بازیابی تصاویر براساس محتوا، زیرمجموعهای از مبحث بازیابی تصاویر است که تمرکز آن بر روی محتوای تصویر برای جستجوی موضوع یا هدف خاصی میباشد. بهطور کلی،ُ هر تصویر دارای مفهمومی است که این مفهوم از کنار هم قرار گرفتن ویژگیهای تصویر بدست آمده است.

در CBIR، از ویژگیهای محتوایی سطح پایین استفاده میشود که از جمله آنها میتوان به ویژگیهای رنگ و ویژگیهای بافت اشاره کرد. ویژگیهای رنگ، موضوعی تعریف شده در یک فضای رنگی یا مدل رنگی خاص هستند. بافت نیز یکیدیگر از ویژگی های مهم تصویر است. درحالیکه رنگ معمولا یک خصوصیت برای پیکسلهای تصویر است، بافت فقط برای گروهی از پیکسل ها دارای مفهوم میباشد. با توجه به قابلیت تمایز قوی، ویژگی بافت به صورت گسترده در روشهای بازیابی تصاویر و تکنیکهای یادگیری معنایی استفاده میشود - . - Tamura, 1978با استفاده از این ویژگیها نتیجه جستجو به بهترین تناظر ممکن بین بردار ویژگیهای استخراج شده و بردار ویژگی به تصویر پرسوجوَ بستگی دارد. تنها مشکل تکنیکهای زیرمجموعه این دسته، این است که کاربران علاقهای به ویژگیهای سطح پایین ندارند و نمیتوانند تصاویر را براساس این ویژگیها تفسیر کنند. بلکه آنها راحتترند که با زبانهای طبیعی به تفسیر تصاویر بپردازند - Sharma et al, . - 2013

در دنیای واقعی، دستهبندی تصاویر تنها براساس ویژگیهای سطح پایین تصویر، منجر به چالشی به نام فاصله معناییُ میشود. این فاصله تفاوتی است که بین آنچه ماشین به عنوان خروجی برمیگرداند و آنچه انسان به عنوان معنی برای تصویر در نظر میگیرد، به وجود میآید. هدف اصلی تکنیکهای حاشیهنویسی تصاویر این است که بهطور خودکار به هر تصویر تست، چندین کلیدواژه مرتبط نسبت دهند، که این کلیدواژهها بازتاب دهنده محتویات بصری آن تصویر هستند - . - Shaoting et al, 2012ایده اصلی حاشیهنویسی خودکار - - AIA ، تکنیکهایی است که مدلهای معنایی و مفهومی را با استفاده از مجموعه تصاویر نمونه بسیار زیاد، به صورت خودکار یاد میگیرند و از این مدلهای مفهمومی برای برچسب زدن به تصاویر جدید و تست استفاده میکنند. مشخصه کلیدی حاشیه نویسی خودکار تصاویر این است که کلیدواژههای جستجو شده براساس محتوای تصاویر را پیشنهاد میدهد - Zhang et al, . - 2012

اکثر تکنیکهای خودکار حاشیهنویسی که تاکنون انجام گرفتهاند، مدلی را جهت یافتن ارتباط میان ویژگیهای بصری و کلمات کلیدی پیشنهاد دادهاند. در این مقاله، درابتدا ویژگیهای تصاویر استخراج شده و با تبدیل مسئله به یک مسئلهی بهینهسازی، از الگوریتم بهینهسازی ازدحام ذرات - - PSOِ برای کاهش ویژگیّ استفاده میشود. سپس با استفاده از فاصله اقلیدوسی، تصاویر مشابه به تصویر پرسوجو استخراج شده و در انتها با استفاده از این تصاویر و برچسب های آنها تصویر پرسوجو برچسبگذاری میشود.در ادامه، دربخش دوم پیرامون کارهای انجام شده صحبت خواهد شد. در بخش سوم نگاشت مسئله و الگوریتم مورداستفاده را تشریح کردهاند. بخش چهارم را به آزمایشها و نتایج بدستآمده اختصاص داده و در بخش پنجم، به بیان نتایج و کارهای آینده پرداختهاند.

-2 کارهای مرتبط

حاشیهنویسی تصاویر در واقع به بازیابی و دسته بندی تصاویر گفته می شود، که هر دسته بیانگر کلمه یا عبارتی در مورد تصویر است - . - Tsai and Hung, 2008 در سالهای اخیر الگوریتمهای زیادی برای حاشیهنویسیخودکار تصاویر معرفی شدهاند که از میان آنها میتوان به چهار دسته مدلهای مبتنی بر فضای بردار، روشهای دستهبندی، روش های ارائه شده براساس تئوری گرافها و مدلهای آماری اشاره کرد. انتساب کلیدواژه به تصاویر نیز میتواند به دو روش تک برچسبیْ و چند برچسبیَ باشد.در مقالهی صادقزاده و همکاران، از روشی برمبنای خوشهبندی نیمهنظارتی طیفی استفاده شده است. استفاده از خوشهبندی نیمه نظارت شده باعث غلبه بر مسئله همگرا شدن در مینیمم محلی میشود، زیرا در این روش از دادههای برچسب خورده توسط انسان استفاده میشود.

همچنین، در روش پیشنهادی برای کاهش فاصله معنایی از سه مرحله بازخورد مرتبط استفاده شده است. عملکرد روش پیشنهادی آنها براساس نتایج بدست آمده نشاندهنده این است که کارآیی و دقت فراوانی در مقایسه با روشهای خوشهبندی دیگر است - صادقزاده و همکاران، . - 1393سدامکار و آکیلش، یک روش حاشیهنویسیخودکار تصاویر را برای حاشیهنویسی مناطقُ براساس تکنیک تقسیمبندی تصویر ًٌ با الگوریتم بهینهسازی کلونی مورچههاٌٌ ارائه میدهند. رویکرد پیشنهادی آنها براساس طبقهبندی نزدیکترین همسایهٌٍ و بهینه سازی کلونی مورچهها برای وزنگذاری ویژگیهاست - . - Akhilesh and Sedamkar, 2016

سیستمی که جین و همکارانش طراحی کردند، از تکنیک خوشهبندی -kمیانگینٌَ برای حاشیهنویسی استفاده میکند. فرض اساسی این روش این بود که حاشیه نویسیهایی که بسیار مرتبط بودند، نگهداری شده و مابقی حذف میشدند. به این ترتیب، تنها اطلاعات متنی کلی استفاده میشود و پردازش، مستقل از تصویر هدف صورت میگیرد و تصاویر متفاوتی که حاشیههای کاندید یکسان داشتند، نتایج حاشیه نویسی آن ها یکسان میشود - . - Jin et al, 2004دویگلو و همکاران، مدل ترجمه ٌُ را ارائه کردهاند که در این مدل تصاویر توسط الگوریتم خوشهبندی ٌِ به نواحی مختلفی تقسیم میشوند. سپس از هر ناحیه بردار ویژگی استخراج میگردد .

بردارهای ویژگی خوشه بندی میشوند که به هر خوشه یک حبابٌّ گفته میشود. در مدلترجمه، کلمات و حبابها به عنوان دو زبان هم ارز در نظر گرفتهشده و حبابها به کلمات ترجمه میشوند . در این مدل، احتمال شرطی یک کلمه به شرط یک حباب به یک مسئلهی بهینهسازی فرموله میشود. برای حاشیه نویسی تصویر جدید نیز ابتدا تصویر قطعهبندی شده و از هر ناحیه بردار ویژگی استخراج میگردد. برای هر ناحیه نزدیک ترین مرکز خوشه - حباب - انتخاب شده و تصویر با حبابها نمایه میشود - . - Duygulu et al, 2002لاورنکو و همکاران مدل CRMٌْ را ارائه کردند. این مدل فضای ویژگیها را به صورت پیوسته در نظر گرفته میگیرد.

تصاویر ابتدا قطعهبندی شده و به نواحی مختلفی تقسیم میشود و هر ناحیه با یک بردار ویژگی پیوسته نمایش داده میشود. تابع توزیع بین نواحی تصویر که یک فضای پیوسته است و کلمات که یک فضای گسسته است، تخمین زده میشود. که از این توزیع برای حاشیهنویسی تصاویر جدید استفاده میشود - . - Lavrenko et al, 2003در مقاله سامی و همکاران، یک رویکرد حاشیهنویسی خودکار تصویر برای برچسب زدن مناطقٌَ ارائه شده است که از مفاهیم و معانی موجود در تصاویر تقسیمبندیٌُ شده بهره میگیرد. رویکرد پیشنهادی براساس ماشینهای بردار پشتیبانی چند طبقهًٍ و انتخاب ویژگیهای مبتنی بر الگوریتم ژنتیک است که در ارتباط با برشنرمال شدهٌٍ مبتنی بر تقسیم بندی تصویر میباشد که هر تصویر ورودی

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید