مقاله ساخت توصیف به زبان فارسی برای تصاویر مجموعه داده Flickr8k

فایل pdf

6 صفحه

قیمت مقاله 000 139 تومان

شرکت مگ ایرانز ضمانت می کند تا 48 ساعت ،اگر به هر دلیلی از خرید خود ناراضی بودید ، مبلغ آن به صورت کامل و بدون چون و چرا، برگشت داده شود .جهت درخواست برگشت وجه ، با پشتیبانی تماس بگیرید .

بخشی از مقاله

چکیده- ساخت توصیف تصویر بصورت خودکار، یک زمینه پژوهشی کلیدي در جامعهي یادگیري ماشین است. با این حال بسیاري از پژوهشهاي اخیر روي ساخت توصیف انگلیسی انجام شده و زبانهاي دیگر مثل زبان فارسی، کمتر مورد توجه قرار گرفته است. در این مقاله، یک شبکه عصبی بازگشتی مالتیمودال - MRNN - 1، برگرفته از روي مجموعهداده Flickr8k باتوصیفات فارسی، آموزش داده شده است.

مدل آموزش داده شدهي حاصل، با معیارهاي BLEU score، CIDEr و Perplexity مورد ارزیابی قرار گرفته و با مدل انگلیسی ارائه شده در [3] و همچنین با ترجمه مدل[3] به فارسی، مقایسه شده است. مدل آموزش داده شده، بسیار نزدیک به مدل آموزش دیده توسط[3] روي توصیفات انگلیسی است و همچنین از حالت ترجمهاي نیز بهتر عمل میکند. لذا میتوان نتیجه گرفت که مدل RNN بصورت عمومی خوب عمل میکند و یا حداقل براي سیستمهاي توصیف تصویر براي زبانهاي مختلف بطور مشابه کار میکند.

-1 مقدمه

با افزایش تعداد دستگاههاي مجهز به دوربین، علاقهي زیادي به ساخت توصیفهاي خودکار از تصاویر و ویدئوها به وجود آمده- است. ساخت خودکار توصیف تصویر، تاثیر بزرگی در زمینههاي بازیابی اطلاعات، امکان برطرف کردن نقص دید، طبقهبندي تصاویر وغیره دارد. علاوه برآن میتواند بصورت فریم به فریم براي توصیف ویدئوها و توضیح محتواي آنها استفاده شود. ساخت خودکار توصیف تصویر یک مسئلهي پژوهشی گسترده است.

با این حال، بسیاري از مدلها و رویکردها در این زمینهها روي زبانهاي غربی تمرکز کردهاند و زبانهاي خاورمیانه مثل فارسی، اردو و عربی کمتر موردتوجه قرارگرفتهاند. تقریباً تمام مدلهاي ساخت توصیف اصلی، روشهاي خود را براي زبان انگلیسی انجام دادهاند.[15] اخیراً، پژوهش هاي زیادي در توصیف خودکار تصویر، به مدل- هاي RNN2 اختصاص داده شده است. زیرا گفته میشود که آنها در مدلسازي دادههاي ترتیبی بسیار موثر عمل میکنند و همچنین ارتباط معنایی و محتوایی در زبانها را بهدست میآورند.

با این حال بیشترِ این مدلها روي تصاویري با توصیفات انگلیسی آموزش دیدهاند و عملکرد آنها روي زبانهاي دیگر مثل زبان فارسی، تست نشده و هیچ دید دقیقی در مورد اینکه آیا این روش بصورت عمومی خوب کار میکند یا نه، نداریم. در این مقاله، مدل RNN روي سیستم توصیف فارسی تست شده است. مدل RNN مشابه ساختار استفاده شده توسط [3] روي مجموعهداده Flickr8k با توصیفات به زبان فارسی، پیاده سازي شده است. توصیفات فارسی از طریق ترجمه مجموعهداده اصلی، با استفاده از سرویس ترجمه گوگِل3 تهیه شده است.

-2 کارهاي انجام شده

در حال حاضر روشهاي انجام توصیف تصویر، بطور کلی به دو دسته تقسیم میشود: "بالا به پایین" و "پایین به بالا". روشهاي پایین به بالا، کار خود را با مفاهیم بصري، اشیاء، صفات، کلمات و عبارات شروع میکنند و با استفاده از مدلهاي زبانی، آنها را ترکیب میکنند تا جملات ساخته شوند. براي مثال [16]و[17] مفاهیم را شناسایی کردهاند و از الگو4ها براي به دست آوردن جملات استفاده کردهاند. [18]و[19] نیز از مدلهاي زبانی قدرتمند براي ساخت جملات استفاده کردهاند.

روشهاي بالا به پایین، مسئلهي توصیف تصویر را به عنوان یک مسئلهي ترجمه ماشینی، فرموله میکنند.[20, 21] به جاي ترج مه بین ز بان هاي مختلف، این روش ها، ترج مه را از یک بازنمایی بصري - تصویر - به یک همتاي زبانی - جمله - ، انجام میدهند. بازنمایی بصري از یک شبکه عصبی کانوولوشنی به دست میآید که اغلب براي طبقهبندي تصاویر روي دیتاستهاي با مقیاس بزرگ، از پیش آموزش دیده است.

[22] ترجمه توسط مدلهاي زبانی مبتنی بر شبکه عصبی بازگشتی - - RNN انجام میشود. مزیت اصلی این روش این است که تمام پارامترها از دادهها یادگرفته میشوند. چندین کار مرتبط نیز از RNNها براي ساخت توصیف تصویر استفاده کردهاند .[9,14,5,8,4,2] اما [3] ادعا میکند که مدل شان از بی شتر روشهاي قبلی سادهتر ا ست. بنابراین تصمیم گرفته شد که مدل آنها را روي کار توصیف فارسی روي مجموعهداده یکسانِ Flickr8k، اعمال کنیم.

-3 مدل پیشنهادي

هدف، طراحی مدلی است که بتواند دنباله اي با تعداد متغیر از کلمات را با توجه به تصویر ورودي به سیستم، پیش بینی کند. در این را ستا ازمدل هاي زبانی5که بر اساس RNNها تو سعه داده میشوند، استفاده خواهیم کرد. مدل زبانی، به وسیله تعریف توزیع احتمال کلمه بعدي در یک دنباله و باتوجه به کلمه جاري و متنِ ساخته شده تا آن لحظه، کلمه بعدي را پیش بینی میکند. در طی مرحله آموزش، پیکسلهاي تصویر - I - و دنباله اي از بردارهاي ورودي - x1,…,xT - به شبکهMRNN6 داده می شود.

-1-3 فرایند آموزش

همانطور که قبلاً هم اشاره شد، RNN آموزش می بیند که یک کلمه - xt - و متن قبلی ساخته شده تا آن لحظه - ht-1 - را ترکیب کند تا کلمه بعدي - - yt را پیش بینی کند. پیش بینی هاي RNN در گام اول روي اطلاعات تصویر - bv - مشروط شده است. به عبارت دیگر RNN پیش بینیهایی که انجام می دهد باید بر اساس محتواي تصویر باشد. در ابتدا h0=0 و x1 =START مقداردهی می شوند و y1 اي که بدست می آید، اولین کلمه در دنباله ما خواهد بود. سپس x2 = y1 قرار داده می شود و انتظار داریم که شبکه دومین کلمه را پیش بینی کند. در نهایت در گام آخر، xT آخرین کلمه را بازنمایی می کند و برچسب هدف11،روي توکن END ، تنظیم میشود. شکل 2 صورت گرافیکی توضیحات اخیر است. هدف این است که احتمالات لگاریتمی اختصاص داده شده به برچسبهاي هدف، ماکزیمم شود.

-3-3 بهینه سازي

با توجه به اینکه میخواهیم عملکرد مدل RNN روي ساخت توصیف فارسی را با مدل ساخت توصیف انگلیسی ارائه شده در [3] مقایسه کنیم، بنابراین باید ساختار RNN و پارامترهاي آموزش را با [3] یکسان درنظر بگیریم. از الگوریتم SGD12 با دستههاي کوچکِ10013تایی جفتهايِ تصویر-جمله وگشتاور0,914 براي بهینه کردن ترازبندي مدل، استفاده شده است. همچنین نرخ یادگیري15 و ضریب کاهش وزن16، cross-validate شده است و ازتنظیمdropout 17 در تمام لایهها به جز لایههاي بازگشتی18 استفاده شده است. همچنین بهترین نتایج با استفاده ازالگوریتم [13] RMSprop به دست آمده است.

-4 آزمایشها و نتایج

- 1- 4 مجموعهداده

از مجموعهداده [7] Flickr8k براي آموزش وارزیابی استفاده شده است که شامل 8000 تصویر به صورتیکه هر تصویر داراي 5 توصیف به زبان فارسی میباشد. توجه شود که مجموعهداده اصلی به زبان انگلیسی میباشد وتوصیفات فارسی با استفاده از سرویس ترجمه گوگِل به دست آمده است. چند مثال در جدول 1 آورده شده است. براي مجموعهداده Flickr8k ، 1000 تصویر براي اعتبارسنجی19، 1000 تصویر براي تست و مابقی براي آموزش مدل استفاده شده است. - مطابق تنظیمات . - [3]

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید

ادرس کوتاه https://magirans.com/id/99477

مقالت رو پیدا نکردی ؟

ما رایگان واست سرچ میکنیم .فقط کافیه موضوع و شماره موبایلت را در کادر ثبت موضوع ، وارد کنی و تمام . ما لیستی از بهترین عناوین که مرتبط با موضوع شماست را در (روبیکا ، ایگپ ، ایتا یا واتساپ) تقدیمتون میکنیم.

ثبت موضوع

با تشکر از شما
درخواست بررسی موضوع مقاله شما با موفقیت ثبت گردید . کارشناسان ما بزودی نتیجه بررسی را به شما اطلاع میدهند .

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مگ ایرانز یک سایت خدماتی اینترنتی محسوب می شود که روزانه مقالات و پاورپوینت های زیادی را جمع آوری ، تهیه و در دسترس دانشجویان ، دانش‌آموزان و محققین قرار می‌دهد . گروه مگ ایرانز در سال 1390 زمانی که هنوز کسب و کارها حالت سنتی داشتند و کافی نت ها به صورت حضوری در سطح شهر فعالیت می‌کردند با ایده کافی نت آنلاین راه اندازی شد . طرح اولیه این شرکت در ابتدا با ایده و تلاش دو دانشجوی خلاق راه اندازی گشت . سپس در سال دوم راه اندازی ، پس از مستقر شدن در دفتر کاری مجهز و استخدام چند نیروی ماهر ،توانستند در طول 5 سال به اهداف خود یعنی 1- رضایت و اعتبارحداکثری در بین کاربران اینترنتی 2- گرد اوری بانکی جامع از مقالات ( 60 هزار مقاله و پاورپوینت فارسی وقابل ویرایش ) 3- همکاری با بیش از 100 کافینت در سطح ایران ، دست پیدا کنند و این راه همچنان ادامه دارد . . .

تماس با ما

سوالات متداول

مقاله ساخت توصیف به زبان فارسی برای تصاویر مجموعه داده Flickr8k

بخشی از مقاله

چرا مگ ایرانز؟

مقاله تأثیر اسیدفولیک وکلات‌کلسیم بر اجزای عملکرد درخت بِه رقم حاج آقا کیشی

مقاله تأثیر اسیدفولیک و کلات‌کلسیم بر سطح برگ و رنگیزه‌های فتوسنتزی درخت بِه رقم حاج آقا کیشی

مقاله تاثیر زبان مادری در آموزش زبان فارسی در بین غیر فارسی زبانان مجتمع بین الملل تهران

مقاله تاثیر تقویت مهارت نوشتاری دیکته با تکیه بر تلفظ درست کلمات در یادگیری زبان فارسی برای زبان آموزان چینی زبان

مقاله تحلیل خطاهای آوایی زبان آموزان غیر فارسی زبان در آموزش زبان فارسی در سطح مقدماتی

مقاله تحلیل منابع آموزش زبان فارسی خارج از کشور بر اساس اصول برنامه ی درسی : مطالعه ی موردی کتاب خواندن برای نو آموزان ویژه ی فارسی آموزان کره ای زبان

مقاله تحلیل منابع آموزش زبان فارسی خارج از کشور بر اساس اصول برنامه ی درسی : مطالعه ی موردی کتاب - «خواندن برای نوآموزان» ویژه ی فارسی آموران کره ای زبان

مقاله تعامل دو زبان عربی و فارسی ( واژگان عربی متداول در زبان فارسی )

مقاله تحلیل محتوای کتاب ( فارسی به فارسی : زبان فارسی 1 ) براساس اصول آموزشی تاملینسون

مقاله دستور مکالمه‌ی زبان فارسی برای تدوین کتاب گفت‌وگو برای فارسی‌آموزان غیرایرانی

مقاله تهیه و تدوین درس‌نامۀ جامع آموزش زبان فارسی به غیرفارسی زبانان برمبنای چهارچوب مرجع آموزش زبان فارسی در سطوح پایه ، میانی و پیشرفته

مقاله تهیه و تدوین مواد آموزشی زبان فارسی برای غیر فارسی زبان در فضای مجازی : چالش‌ها و فرصت‌ها

مقاله توصیف و بررسی انواع خطاهای زبانی در گفتار فارسی آموزان عرب زبان سطح میانی

مقاله توصیف و تحلیل اشتباهات زبان شناختی در انشای فارسی مناطق دوزبانه ( بررسی موردی : انشای فارسی دانش آموزان کلاس پنجم ابتدایی مدارس شهرستان مهاباد )

مقاله خطاهای نگارشی در نوشتار فراگیران زبان فارسی بررسی موردی : نوشتار فراگیران مبتدی فارسی آموز مناطق کرد زبان جنوب آذربایجان غربی

مقاله راهکارهای نوآوری در آموزش واژگان به زبان‌آموزان چینی در آموزش زبان فارسی به عنوان زبان دوم

مقاله ساخت مفسر زبان و محیط یکپارچه توسعه برای زبان جبر رابطه ای نماد گذاری کتاب C . J . Date به زبان javascript

مقاله شبکه ارتباطی زبان ها و ظهور زبان جهانی ( مطالعه موردی نگرش مدرسان زبان انگلیسی به منابع درسی آموزش زبان )

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران

مقاله ساخت توصیف به زبان فارسی برای تصاویر مجموعه داده Flickr8k

بخشی از مقاله

چرا مگ ایرانز؟

مقالات مرتبط با این مقاله

مقاله تأثیر اسیدفولیک وکلات‌کلسیم بر اجزای عملکرد درخت بِه رقم حاج آقا کیشی

مقاله تأثیر اسیدفولیک و کلات‌کلسیم بر سطح برگ و رنگیزه‌های فتوسنتزی درخت بِه رقم حاج آقا کیشی

مقاله تاثیر زبان مادری در آموزش زبان فارسی در بین غیر فارسی زبانان مجتمع بین الملل تهران

مقاله تاثیر تقویت مهارت نوشتاری دیکته با تکیه بر تلفظ درست کلمات در یادگیری زبان فارسی برای زبان آموزان چینی زبان

مقاله تحلیل خطاهای آوایی زبان آموزان غیر فارسی زبان در آموزش زبان فارسی در سطح مقدماتی

مقاله تحلیل منابع آموزش زبان فارسی خارج از کشور بر اساس اصول برنامه ی درسی : مطالعه ی موردی کتاب خواندن برای نو آموزان ویژه ی فارسی آموزان کره ای زبان

مقاله تحلیل منابع آموزش زبان فارسی خارج از کشور بر اساس اصول برنامه ی درسی : مطالعه ی موردی کتاب - «خواندن برای نوآموزان» ویژه ی فارسی آموران کره ای زبان

مقاله تعامل دو زبان عربی و فارسی ( واژگان عربی متداول در زبان فارسی )

مقاله تحلیل محتوای کتاب ( فارسی به فارسی : زبان فارسی 1 ) براساس اصول آموزشی تاملینسون

مقاله دستور مکالمه‌ی زبان فارسی برای تدوین کتاب گفت‌وگو برای فارسی‌آموزان غیرایرانی

مقاله تهیه و تدوین درس‌نامۀ جامع آموزش زبان فارسی به غیرفارسی زبانان برمبنای چهارچوب مرجع آموزش زبان فارسی در سطوح پایه ، میانی و پیشرفته

مقاله تهیه و تدوین مواد آموزشی زبان فارسی برای غیر فارسی زبان در فضای مجازی : چالش‌ها و فرصت‌ها

مقاله توصیف و بررسی انواع خطاهای زبانی در گفتار فارسی آموزان عرب زبان سطح میانی

مقاله توصیف و تحلیل اشتباهات زبان شناختی در انشای فارسی مناطق دوزبانه ( بررسی موردی : انشای فارسی دانش آموزان کلاس پنجم ابتدایی مدارس شهرستان مهاباد )

مقاله خطاهای نگارشی در نوشتار فراگیران زبان فارسی بررسی موردی : نوشتار فراگیران مبتدی فارسی آموز مناطق کرد زبان جنوب آذربایجان غربی

مقاله راهکارهای نوآوری در آموزش واژگان به زبان‌آموزان چینی در آموزش زبان فارسی به عنوان زبان دوم

مقاله ساخت مفسر زبان و محیط یکپارچه توسعه برای زبان جبر رابطه ای نماد گذاری کتاب C . J . Date به زبان javascript

مقاله شبکه ارتباطی زبان ها و ظهور زبان جهانی ( مطالعه موردی نگرش مدرسان زبان انگلیسی به منابع درسی آموزش زبان )

مقالت رو پیدا نکردی ؟

درباره مگ ایرانز

مگیرانز برندی معتبر در بین کاربران فضای علمی ایران