بخشی از مقاله
چکیده
بازیابی تصویر مبتنی بر محتوا، به معنای بازیابی تصاویر با استفاده از ویژگیهای سطح پایین همچون رنگ، بافت و شکل میباشد.در این نوع بازیابی، شکاف معنایی به معنای اختلاف در تفسیر تصاویر، بین انسان و الگوریتم کامپیوتری میباشد. در این حوزه، نگاشت غیرصحیح ویژگیهای سطح پایین تصویر به معانی سطح بالا، سبب می شود تا شکاف معنایی افزایشیابد. در بازیابی تصویر، چنانچه با تغییر در بافت، رنگ و یا شکل تصویر، از نظر انسان معنای تصویر تغییری نکند، ولی به دلیل تغییر غیر پیوسته در بردار ویژگیهای سطح پایین تصویر، بازیابی تصاویر مشابه در تمامیموارد به درستی انجام نمیپذیرد.
در این مقاله جهت همسو سازی نسبت تغییرات در فضای ویژگی متناسب با فضای معنا، از رویکرد کاهش ابعاد بردارهای ویژگی به صورت غیر خطی استفاده می شود. کاهش ابعاد بردارهای ویژگی به صورت غیرخطی که یادگیری منیفلد نیز نامیده می شود به معنای جستجوی ساختارهایی با ابعاد کم است که به صورت ذاتی و غیرخطی در مشاهدات با ابعاد بالا وجود دارد. نوآوری اصلی ارائه شده در این مقاله، استخراج یک فضای ویژگی از چند فضای ویژگی میباشد که با دو روش ارائه شده، اثر منفی نویز در دقت یادگیری منیفلد کاهش مییابد. در ارزیابی دو روش پیشنهادی، از دادگانهای بخش B از MPEG-7 و Fish استفاده شده است که نتایج تجربی بیانگر موثر بودن روشهای پیشنهادی میباشد.
کلمات کلیدی: پردازش تصویر، بازیابی تصویر، محتوا ، بینایی ماشین ، استخراج غیر بافتی
مقدمه
کامپیوترهای امروزی در مقایسه با انسان از سرعت بسیار بیشتری در پردازش های ریاضی برخوردار هستند، ولی فعالیت های بازشناسی و تشخیص که انسان در برخورد با تصویر و صوت دارد در بسیاری از موارد در دانش محاسبات کامپیوتری، دور از دسترس می باشد .هر بار که چشم انسان گشوده می شود و حسگرهای بینایی سیگنال های نوری را دریافت می کنند، مغز انسان ، چنانچه تصویر راقبلاً دیده و یا راجع به آن شنیده باشد، با سرعت ادراک صحیحی از آن پیدا می کند و می تواند با موضوعات قبلی که در خاطر دارد آن را مرتبط سازد. امروزه با گسترش داده ها در انواع مختلف و ب ه خصوص در انواع چندرسانه ای، این نیاز که بتوانیم با دقت و سرعت، این نوع داده ها را بازیابی نماییم امری مهم می باشد.درفضای اینترنت،موتورهایجستجوبا روش های مختلف جستجو در متن و تشخیص درجه ارتباط صفحات با اطلاعات آورده شده درپرسوجو ، می توانند داده های متنی را با دقت وسرعت مطلوب بازیابی نمایند. چنانچه تصویری به عنوان پرس وجو به موتور جستجوگر داده شود و تصاویر مرتبط با تصویر پرس وجو تنها با توجه اطلاعات تصویری، بازیابی گردند در پژوهش ها تحت عنوان" بازیابی مبتنی بر محتوی CBIR نام برده می شود. در پژوه شهایی که در حوزه CBIR انجام می گیرند سعی بر آن است تا با استخراج ویژگی های رنگ، بافت و شکل تصویر، در بازیابی تصاویری را به کاربر نشان دهند که بیشترین ارتباط را با تصویر پرس و جو داشته باشند. ادراکی که الگوریتم کامپیوتری از تصویر پیدا می کند تنها بر اساس ویژگی های استخراج شده می باشد و بازیابی را نیز بر آن مبنا انجام می دهد .بنابراین نتیجه بازیابی با نتیجه مورد انتظار کاربر انسانی لزوما همخوانی بالایی ندارد .این مطلب که ادراک انسان از تصویر با ادراک کامپیوتر از تصویر تفاوت دارد در پژوهش ها تحت عنوان" شکاف معنایی " نام برده می شود که الگوریتم های مختلف با رویکرد هایی نظیر استفاده از بازخورد 3 کاربر سعی دارند تا این فاصله را کاهش دهند.
اهمیت تصاویر
تصویر از نخستین وسایل ارتباطی میان انسانها بوده است انسان ها، از هزاران سال پیش می دانستند که می توانند به کمک تصویر،بسیاری از مفاهیم را به نحو بهتری منتقل کنند، مفاهیمی که واژه هایی برای آنها وجود نداشته و اگر داشته به اندازه کافی مشخص نبوده اند قدیمی ترین خط ها،تصویرهایی بوده که انسان ها برای ارسال پیام و بیان مقاصد و اهداف و نظرات،یابیان عواطف و احساسات خود،بر دیواره های غارها، تنه ی درختان، یا بر سنگها و سنگسانها حک نموده اند.بازیابی تصاویر از دهه 1791تاکنون یک مقوله فعال تحقیقاتی می باشد و محققین در دو زمینه عمده تحقیقاتی در این پژوهش ها دست داشته و دارند زمینه مدیری؟پایگاه داده، و زمینه بینایی ماشین. دید گروه اول مبتنی بر متن است؟و دید گروه دوم مبتنی بر ویژگیهای بصری بازیابی مبتنی بر متن تصاویر از اوایل دهمه 1791آغاز شد، که در آن یک چارچوب عمومی از بازیابی تصویر ابتدا با یادداشت گذاری تصاویر با کلمات کلیدی، و سپس استفاده از سیستم های مدیری ؟
پایگاه داده جهت ؟بازیابی تصاویر ارائه گردید دو مشکل عمده در این نوع بازیابی وجود دارد، خصوصا زمانی که حجم مجموعه پایگاه داده بزرگ باشد، مشکلات وزمان زیادی که صرف یادداشت گذاری تصاویر می شود.ٍ - مشکلاتی که بدلیل محتوای زیاد تصماویر و درک متفاوت بشری از تصاویر حاصل می شود.دراوایل دهه 2991، بدلیل افزایش سریع مجموعه های تصاویر باحجم بالا و پاسخگو نبودن سیستم های مبتنی بر متن، سیستم های بازیابی مبتنی بر محتوای تصاویر معرفی شدند در×این سیستم ها بجای یادداشت گذاری دستی بصورت متن خلاصه ای برای تصاویر،تصاویر بااستفاده از محتوای بصری خود اندیس گذاری می شوند.
استخراج غیرخطی فضای ویژگی در بازیابی تصویر
در سال های اخیر استفاده از رویکرد یادگیری منیفلد در کاربردهای مختلف مورد توجه قرار گرفته است .در بازیابی تصویر مبتنی بر محتوی ، کاهش ابعاد بردار ویژگی به صورت غیرخطی در آورده شده است .استفاده از این رویکرد اولین بار در ارائه گردید .در این تحقیق، داد ه ها کل تصویر هستند و 435 ویژگی به دست آمده از رنگ و بافت تصویر در هر تصویر به 60ویژگی کاهش داده شدهاست .برای وزن دهی یال های گرافی که ارتباط داده ها را بیان می کند، هم از فاصله اقلیدسی بردار ویژگی تصاویرو هم از بازخورد ربطی که توسط کاربر داده می شود،استفاده می شود .چنانچه فاصله اقلیدسی دو تصویر از مقدار کوچکی چون کمترباشد، در این صورت دو تصویر با یالی که وزن آن برابر با فاصله اقلیدسی دو تصویر است مرتبط می شوند.
همچنین هنگامی که دو تصویر در بازخورد کاربر توسط سیستم مرتبط شناخته می شود، وزن یالی که این دو تصویر را به هم وصل می کند، در نظر گرفته می شود.درٌٌ با دو رویکرد به مسأله بازیابی پرداخته است و در انتها نتیجه گیری که بر اساس نتایج تجربی ارائه نمود هاست، معادل بودن این دو رویکرد می باشد .در رویکرد اول، با آمدن هر تصویر پرس وجو، تصویر مربوطه به گراف اضافه م یشود و فاصله اقلیدسی تصویر پرس وجو با تمامی تصاویر گراف محاسبه م یشود .در این رویکرد برای بازیابی تصاویری که دارای کمترین فاصله معنایی با تصویر پرس جو هستند، کوتاه ترین مسیر بین تصویر پر سجو باتمامی تصاویر محاسبه م یشود و نتیجه بازیابی، تصاویری هستند ه کمترین کوتاه ترین مسیر را با تصویر پرس وجو دارند.
در رویکرد دوم با روش نگاشت ویژه لاپلاسی ، که از رو شهای پایه در یادگیری منیفلد است، ابعاد بردار ویژگی هر تصویر کاهش داده می شود .در این رویکرد تمامی محاسبات برای یافتن شباهت با فاصله اقلیدسی در فضای کاهش بعد داده شده انجام م یشود . در رویکرد دوم برای یادگیری چگونگی کاهش بعد از شبکه عصبی RBF استفاده می شود. برای این منظور 435 ویژگی تصویر پرس جو به 60 ویژگی کاهش داده می شود .در 11 نتیجه گیری که بر اساس نتایج تجربی ارائه شده است، معادل بودن نتیجه بازیابی در هر دو رویکرد می باشد .بنابراین می توان به جای محاسباتزمان گیر کوتا هترین مسیر در هر پر سجو، کوتاه ترین فاصله معنایی را در فضای کاهش بعد داده شده بر اساس فاصله اقلیدسی انجام داد.