بخشی از مقاله
چکیده- ساخت توصیف تصویر بصورت خودکار، یک زمینه پژوهشی کلیدي در جامعهي یادگیري ماشین است. با این حال بسیاري از پژوهشهاي اخیر روي ساخت توصیف انگلیسی انجام شده و زبانهاي دیگر مثل زبان فارسی، کمتر مورد توجه قرار گرفته است. در این مقاله، یک شبکه عصبی بازگشتی مالتیمودال - MRNN - 1، برگرفته از روي مجموعهداده Flickr8k باتوصیفات فارسی، آموزش داده شده است.
مدل آموزش داده شدهي حاصل، با معیارهاي BLEU score، CIDEr و Perplexity مورد ارزیابی قرار گرفته و با مدل انگلیسی ارائه شده در [3] و همچنین با ترجمه مدل[3] به فارسی، مقایسه شده است. مدل آموزش داده شده، بسیار نزدیک به مدل آموزش دیده توسط[3] روي توصیفات انگلیسی است و همچنین از حالت ترجمهاي نیز بهتر عمل میکند. لذا میتوان نتیجه گرفت که مدل RNN بصورت عمومی خوب عمل میکند و یا حداقل براي سیستمهاي توصیف تصویر براي زبانهاي مختلف بطور مشابه کار میکند.
-1 مقدمه
با افزایش تعداد دستگاههاي مجهز به دوربین، علاقهي زیادي به ساخت توصیفهاي خودکار از تصاویر و ویدئوها به وجود آمده- است. ساخت خودکار توصیف تصویر، تاثیر بزرگی در زمینههاي بازیابی اطلاعات، امکان برطرف کردن نقص دید، طبقهبندي تصاویر وغیره دارد. علاوه برآن میتواند بصورت فریم به فریم براي توصیف ویدئوها و توضیح محتواي آنها استفاده شود. ساخت خودکار توصیف تصویر یک مسئلهي پژوهشی گسترده است.
با این حال، بسیاري از مدلها و رویکردها در این زمینهها روي زبانهاي غربی تمرکز کردهاند و زبانهاي خاورمیانه مثل فارسی، اردو و عربی کمتر موردتوجه قرارگرفتهاند. تقریباً تمام مدلهاي ساخت توصیف اصلی، روشهاي خود را براي زبان انگلیسی انجام دادهاند.[15] اخیراً، پژوهش هاي زیادي در توصیف خودکار تصویر، به مدل- هاي RNN2 اختصاص داده شده است. زیرا گفته میشود که آنها در مدلسازي دادههاي ترتیبی بسیار موثر عمل میکنند و همچنین ارتباط معنایی و محتوایی در زبانها را بهدست میآورند.
با این حال بیشترِ این مدلها روي تصاویري با توصیفات انگلیسی آموزش دیدهاند و عملکرد آنها روي زبانهاي دیگر مثل زبان فارسی، تست نشده و هیچ دید دقیقی در مورد اینکه آیا این روش بصورت عمومی خوب کار میکند یا نه، نداریم. در این مقاله، مدل RNN روي سیستم توصیف فارسی تست شده است. مدل RNN مشابه ساختار استفاده شده توسط [3] روي مجموعهداده Flickr8k با توصیفات به زبان فارسی، پیاده سازي شده است. توصیفات فارسی از طریق ترجمه مجموعهداده اصلی، با استفاده از سرویس ترجمه گوگِل3 تهیه شده است.
-2 کارهاي انجام شده
در حال حاضر روشهاي انجام توصیف تصویر، بطور کلی به دو دسته تقسیم میشود: "بالا به پایین" و "پایین به بالا". روشهاي پایین به بالا، کار خود را با مفاهیم بصري، اشیاء، صفات، کلمات و عبارات شروع میکنند و با استفاده از مدلهاي زبانی، آنها را ترکیب میکنند تا جملات ساخته شوند. براي مثال [16]و[17] مفاهیم را شناسایی کردهاند و از الگو4ها براي به دست آوردن جملات استفاده کردهاند. [18]و[19] نیز از مدلهاي زبانی قدرتمند براي ساخت جملات استفاده کردهاند.
روشهاي بالا به پایین، مسئلهي توصیف تصویر را به عنوان یک مسئلهي ترجمه ماشینی، فرموله میکنند.[20, 21] به جاي ترج مه بین ز بان هاي مختلف، این روش ها، ترج مه را از یک بازنمایی بصري - تصویر - به یک همتاي زبانی - جمله - ، انجام میدهند. بازنمایی بصري از یک شبکه عصبی کانوولوشنی به دست میآید که اغلب براي طبقهبندي تصاویر روي دیتاستهاي با مقیاس بزرگ، از پیش آموزش دیده است.
[22] ترجمه توسط مدلهاي زبانی مبتنی بر شبکه عصبی بازگشتی - - RNN انجام میشود. مزیت اصلی این روش این است که تمام پارامترها از دادهها یادگرفته میشوند. چندین کار مرتبط نیز از RNNها براي ساخت توصیف تصویر استفاده کردهاند .[9,14,5,8,4,2] اما [3] ادعا میکند که مدل شان از بی شتر روشهاي قبلی سادهتر ا ست. بنابراین تصمیم گرفته شد که مدل آنها را روي کار توصیف فارسی روي مجموعهداده یکسانِ Flickr8k، اعمال کنیم.
-3 مدل پیشنهادي
هدف، طراحی مدلی است که بتواند دنباله اي با تعداد متغیر از کلمات را با توجه به تصویر ورودي به سیستم، پیش بینی کند. در این را ستا ازمدل هاي زبانی5که بر اساس RNNها تو سعه داده میشوند، استفاده خواهیم کرد. مدل زبانی، به وسیله تعریف توزیع احتمال کلمه بعدي در یک دنباله و باتوجه به کلمه جاري و متنِ ساخته شده تا آن لحظه، کلمه بعدي را پیش بینی میکند. در طی مرحله آموزش، پیکسلهاي تصویر - I - و دنباله اي از بردارهاي ورودي - x1,…,xT - به شبکهMRNN6 داده می شود.
-1-3 فرایند آموزش
همانطور که قبلاً هم اشاره شد، RNN آموزش می بیند که یک کلمه - xt - و متن قبلی ساخته شده تا آن لحظه - ht-1 - را ترکیب کند تا کلمه بعدي - - yt را پیش بینی کند. پیش بینی هاي RNN در گام اول روي اطلاعات تصویر - bv - مشروط شده است. به عبارت دیگر RNN پیش بینیهایی که انجام می دهد باید بر اساس محتواي تصویر باشد. در ابتدا h0=0 و x1 =START مقداردهی می شوند و y1 اي که بدست می آید، اولین کلمه در دنباله ما خواهد بود. سپس x2 = y1 قرار داده می شود و انتظار داریم که شبکه دومین کلمه را پیش بینی کند. در نهایت در گام آخر، xT آخرین کلمه را بازنمایی می کند و برچسب هدف11،روي توکن END ، تنظیم میشود. شکل 2 صورت گرافیکی توضیحات اخیر است. هدف این است که احتمالات لگاریتمی اختصاص داده شده به برچسبهاي هدف، ماکزیمم شود.
-3-3 بهینه سازي
با توجه به اینکه میخواهیم عملکرد مدل RNN روي ساخت توصیف فارسی را با مدل ساخت توصیف انگلیسی ارائه شده در [3] مقایسه کنیم، بنابراین باید ساختار RNN و پارامترهاي آموزش را با [3] یکسان درنظر بگیریم. از الگوریتم SGD12 با دستههاي کوچکِ10013تایی جفتهايِ تصویر-جمله وگشتاور0,914 براي بهینه کردن ترازبندي مدل، استفاده شده است. همچنین نرخ یادگیري15 و ضریب کاهش وزن16، cross-validate شده است و ازتنظیمdropout 17 در تمام لایهها به جز لایههاي بازگشتی18 استفاده شده است. همچنین بهترین نتایج با استفاده ازالگوریتم [13] RMSprop به دست آمده است.
-4 آزمایشها و نتایج
- 1- 4 مجموعهداده
از مجموعهداده [7] Flickr8k براي آموزش وارزیابی استفاده شده است که شامل 8000 تصویر به صورتیکه هر تصویر داراي 5 توصیف به زبان فارسی میباشد. توجه شود که مجموعهداده اصلی به زبان انگلیسی میباشد وتوصیفات فارسی با استفاده از سرویس ترجمه گوگِل به دست آمده است. چند مثال در جدول 1 آورده شده است. براي مجموعهداده Flickr8k ، 1000 تصویر براي اعتبارسنجی19، 1000 تصویر براي تست و مابقی براي آموزش مدل استفاده شده است. - مطابق تنظیمات . - [3]