بخشی از مقاله
مدلها و تئوریهای محاسباتی باز شناسی اشیاء
چکیده:
در این مقالة مروری، سعی ما بر آن است که اصول بازشناسی اشیاء و نحوه ی انجام آن توسط سیستم بینایی بیولوژیکی (زیستی) را به اختصار بیان کنیم؛ که این مورد یکی از اهداف رایانه و هوش مصنوعی نیز می باشد. در همین حال نگاهی به تئوریها و مدلهای محاسباتی بازشناسی اشیاء خواهیم داشت که در آنها ایدة اصلی به نوعی از سیستم بینایی گرفته شده است یا به عبارتی دیگر از مدلها و تئوریهایی که از نگاه بیولوژیکی، قابل باور هستند.
کلمات کلیدی:
بازشناسی اشیاء؛ سیستم بینایی بیولوژیک تئوریها؛ مدلها؛
1ـ معرفی
بینایی کامپیوتر ، به خوبی می تواند نمونه های محدودی از بازشناسی اشیاء را، هم دسته بندی و هم شناسایی کند. در عین حال سیستمی که قادر به دسته بندی اقسام اشیاء در تصاویر پیچیده باشد و هم چنین بتواند تصاویری همانند چهرة انسان را در سطحی برابر با توانایی بشر، در شرایط مختلف نور و زاویه دید بازشناسی کند، قادر به گذراندن تست «Turing» برای بینایی می باشد. جای تعجب نیست که آن چنان سیستم منعطف و جامعی هنوز موضوع چشم انداز علم است. باز
شناسی اشیاء، در بالاترین نقطة سلسله مراتب اعمال بینایی قرار دارد و در حالت کلی یک مسئله محاسباتی پیچیده است، که نقش مهمی در ساختار نهایی ماشین های هوشمند خواهد داشت. بدون اغراق، این مسئله موضوع پیچیده تر و بدون جوابی برای علوم اعصاب شناختی نیز می باشد.
شناسایی و دسته بندی دو عمل مهم در بازشناسی هستند. کدام یک از عمل آسانتر و انجام آن در اولویت است؟ جواب این سؤال در علوم اعصاب شناختی متفاوت از پاسخ آن در بینایی کامپیوتر
است. معمولاً تکنیک های بینایی کامپیوتر شناسایی را بسیار آسانتر دریافتند ـ همچنان که کمپانی های بسیاری، سیستم های شناسایی چهره را به راحتی می فروشند ـ ولی امر دسته بندی را تقریباً غیر ممکن می داند. حال آنکه روانشناسان و علوم اعصاب شناسان این داستان را بر عکس بیان می کنند: بدین صورت که در سیستم های بینایی بیولوژیک، طی پروسه بازشناسی، دسته بندی به نظر مرحله ای ساده تر و مقدم تر
نسبت به شناسایی به شمار می رود.
تئوری های بازشناسی اشیاء، بر یک پدیدة مشترک تحت عنوان بازنمایی استوارند. باور عمومی بر این است که، یک بازنمایی خوب، منجر به بازشناسی کامل می شود و دیگر امور مربوط به بینایی را نیز تسریع می کند. برای حل مسئلة بازنمایی نوعی تطابق بین مجموعة اشیاء بیرونی و اجزاء داخلی باید در نظر گرفته شود.
در میان مدلهای بیولوژیکی بازشناسی اشیاء، تفاوت اصلی بین سیستم های پیشرو و فیدبک و بین سیستم های «object - centered» و «view - centered» است. تمرکز این مقالة بازنگری،
بر روی مدلهای پیشرو «view - centered» است، که با شواهد نورو بیولوژیکی سازگاری بیشتری دارند. بخش 2 و 3 پیش زمینه ای برای سیستم های بینایی بیولوژیکی و بازنمایی های ممکن برای اجسام خارجی در یک سیستم بازشناسی را ارائه می دهد. بخش 4 سه نوع مختلف تئوری های بازشناسی اشیاء بررسی می کند. بخش 5 مدلهای بازشناسی اشیاء، مبتنی بر تئوریهای ذکر شده را شرح می دهد و بخش 6 خلاصه ای از مقاله را ارائه می کند.
2ـ بازشناسی اشیاء در مغز:
سیستم بینایی انسان سلسله مراتب از نواحی چند گانه مغزی است که محاسبات نورونی پیشرو بر روی سیگنالهای بینایی ورودی را انجام می دهند. در مراحل اولیه، قشرهای بینایی V1 و V2 عمل شناسایی خط و لبه را انجام می دهند. در مرحله بالاتر پردازش، ناحیه V4 ، اشکال تقریباً پیچیده را با اطلاعاتی دربارة توضیحات ساختاری ویژگی های حاصل شده، بازنمایی می کنند. مرحلة نهایی پردازش بینایی، «IT» یا قشر تحتانی می باشد که گمان می رود بازشناسی بینایی اشیاء را انجام می دهد.
3ـ بازنمایی:
بازنمایی و اهداف آن به طور کلی می توانند دو دسته در نظر گرفته شوند. در نتیجة بازنمایی به یک نوع نگاشت تبدیل می شود. این نگاشت، تطابقی بین ویژگی های خارجی و دستة اجزاء داخلی می باشد؛ ولی این تطابق از کدام گونه از ارتباطات باید باشد؟
3ـ1 تناظر درجه اول و دوم:
دو نوع نگاشت مختلف بین دامنه و برد بازنمایی ها وجود دارد. بهترین حالت، تطابق یک به یک (Isomorphism) است. یک حالت نا مطلوب اما
اجتناب ناپذیر، نگاشت چند به یک (Homomorphism) است. اجتناب ناپذیر است، زیرا از سیستم هایی با منابع محدود سر چشمه می گیرد که توانایی بازنمایی تمامی خواص محرک های فیزیکی را با دقیق ترین جزئیات ندارد. یک نکتة مهم این است که، تناظر باید بین الف: یک شیء خاص و ب: بازنمایی های داخلی متقابل آن برقرار شود (روابط درجه اول). اما در روابط درجه دوم تناظر بین الف) روابط میان اشیاء خارجی و ب) روابط میان بازنمایی های خارجی متقابل آنها است. بنابراین،
محققان به این نتیجه رسیده اند که تناظر درجه اول مانند بازنمایی به وسیله تشابه، در سیستم هایی با منابع محدود ما برای پیاده سازی مناسب نمی باشند. در همین راستا، تئوریسین ها تناظر را نه بین اجزاء خاص بلکه بین ساختارها بیان می کنند (تناظر درجه دوم) به طور خلاصه، در بازنمایی تناظر درجه دوم فقط روابط خاص بین اشیاء، نیاز به بازنمایی دارد؛ نه شکل ظاهری خود اشیاء.
شکل 1 ـ بازنمایی، تناظر درجه دوم: در اینجا تناظر بین فاصله در دو فضا است. توابع فاصل
ة خارجی و داخلی هستند. توجه کنید که بازنمایی، متشکل از چند نماد است که به اشیاء خارجی اشاره می کند؛ ولی خود آنها را بازنمایی نمی کند، بلکه آنها را به عنوان بخشی از ساختار فواصل نشان می دهد.
4ـ تئوریهای محاسباتی بازشناسی اشیاء:
در حقیقت سه رویکرد اصلی در تئوریهای محاسباتی بازشناسی وجود دارد:
1ـ تجزیه ساختاری
2ـ ویژگی های هندسی
3ـ فضاهای ویژگی چند بعدی
که در ادامه مروری بر هر یک از این روشها خواهیم داشت.
4ـ1 ـ تئوری تجزیه ساختاری:
در یک مدل تئوری ساختاری، یک شیء توسط تعداد محدودی از اجزاء نوعی بازنمایی می شود همانطور که از اسم این تئوری انتظار می رود، ساختار شیء به اشکال اولیه تجزیه می شود. تجزیه ای ساختاری که مطابق با همان اجزاء نوعی ذکر شده است. به کمک این اصطلاحات، تئوری تجزیه ساختاری در دسته تناظر یک به یک قرار می گیرد. یک بحث در این تئوری، استاندارد سازی عناصر اولیه و ارتباطات آنها است، که به ما اجازه می دهد که نسبت به اشیاء جدید همانند اشیاء
شناخته شده عمل کنیم. روشهای ساختاری در بازشناسی بصری اشیاء، یادآور تئوری های مشابه مطرح شده در پردازش زبان هستند که در آنها جملات، متناظر با اشیاء و کلمات نیز متناظر با اجزاء آن اشیاء هستند. بنابراین تجزیه یک شی ء ، مثل شکستن یک جمله است. مقایسة بعدی بین توصیفات ساختاری اشیاء است که به طور ریاضی، دسته بندی نظیر به نظیر نموداری انجام می دهد. این بدین معناست که حجم محاسبات لازم برای رسیدن به یک راه حل، به طور نمایی به اندازة آن مسئله وابسته است؛ برای این مثال اجزاء یک شیء که قرار است با هم هماهنگ شوند.
هنگام بررسی کارایی این تئوری، باید به این واقعیت دقت کنیم که محدودیت ما مربوط به خود تئوری
ساختاری است؛ نه الگوریتم پیاده سازی آن. چند مدل بر اساس این تئوری پیشنهاد شده است، مانند مدل «بازشناسی از روی اجزاء» که معروفترین مدل از تئوری است تجزیه ساختاری است و تأکید آن بر تجزیه یک شیء به اشکال هندسی ساده در آن، یادآور روش پیشنهادی توسط آقایان Marr و Nishiara است.
4ـ1ـ1ـ مشکلات محاسباتی تجزیه ساختاری:
سه مشکل عمده برای تئوری تجزیه ساختاری وجود دارد:
1ـ نیاز به اطلاعات متریک؛ 2ـ سختی بازیابی اجزاء؛ 3ـ ناپایداری توصیفات مربوط به اجزاء هر بخش؛ شکل 2 این کمبود را در رابطه با تئوری تجزیه ساختاری نشان می دهد.
شکل 2 ـ مشکلات محاسباتی بازنمایی ساختاری:
الف) توصیفات ساختاری باید همراه با اطلاعات متریک باشند، تا بتوانند تفاوت های بین دسته هایی که به وفور مشاهده می شوند را بازنمایی کنند.
در برداشتن جزئیات متریک، توانایی متدهای ساختاری را در مواجه با اشیاء جدید کاهش می دهد. ب) تصویری از یک گاری است که همانطور که آقای «Biderman» پیشنهاد می دهد، ممکن است با آن شکل در سیستم بینایی تجزیه ساختاری شود. در عین حال تا کنون هیچ روش قابل اعتمادی برای نگاشت یک تصویر سیاه و سفید، یک مجموعه است اجزاء اولیه بر حسب خورده وجود ندارد.
ج) حتی در اعماق ساده تر، مانند بازشناسی حروف که شکل براحتی قابل جداسازی از زمینه است، استخراج یک توصیف ساختاری مشکل ساز است. مشکل از آنجا ناشی می شود که امکان تخصیص توصیف های ساختاری چند گانه، به یک تصویر وجود دارد. د) در بعضی کارها حتی در ارائه یک توصیف ساختاری نیز با مشکل مواجه می شویم. برای مثال چگونه می توان یک کفش را به وسیله ساختارهای پایه مدل (R b c) بازنمایی کرد.
در حالی که متدهای ساختاری، بسیاری از اطلاعات کمی موجود در ویژگی های اشیاء را نادیده می گیرند؛ متدهای هندسی مانند «alignment» از این اطلاعات استفاده می کنند، تا اشیاء را شناسایی و موقعیت آنها را نسبت به ناظر محاسبه می کنند. تئوریهای مبتنی بر هندسه، لیستی از محورهایی با ویژگی های متمایز (با قابلیت شناسایی آسان) و متناظر با اشیاء را به منظور بازنمایی آنها تهیه می کنند.
در نتیجه، بازنمایی یک مستطیل در دو بعد، لیستی از هشت علامت که مختصات (x,y) چهار گوشه آن است را، تشکیل می دهد.