بخشی از مقاله
چکیده- مسئلهي برچسبزنی رشته یکی از مسائل مهم حوزهي بینایی ماشین است که در آن به عناصر دنباله اي از تصاویر برچسب مناسب نسبت داده میشود. در اینگونه مسائل اغلب میتوان ساختار ورودي-خروجی را به شکل یک مدل احتمالاتی گرافی در نظر گرفته و از این طریق وابستگیهاي میان مشاهدات و برچسبها را روشنتر نشان داد. میدان تصادفی شرطی یکی از مهمترین مدلهاي احتمالاتی است که کاربرد زیادي در مسئلهي برچسبزنی رشته دارد.
این مدل افتراقی بوده و از نوع مدلهاي شرطی به شمار میآید. از طرفی دیگر مدل ترکیب خبرگان با تقسیمبندي فضاي ورودي و تمرکز هر شبکهي خبره بر یادگیري ناحیهاي از فضا میتواند سبب افزایش دقت در مدلها شود. در این مقاله روشی براي تلفیق میدان تصادفی شرطی و ترکیب خبرگان ارائه شده است. براي این کار تعدادي خبره از نوع شبکههاي عصبی میان لایهي ورودي و خروجی در میدان تصادفی شرطی قرار داده شدهاند که با توجه به توزیع و ساختار دادهها میتوانند ویژگیهاي سطح بالاتري را از رشتههاي مشاهدات بدست آورند. نتایج آزمایشهاي انجام گرفته بر روي تصاویر کلمات انگلیسی که بصورت دنبالهاي از تصاویر حروف تبدیل شدهاند نشان داد که مدل ارائه شده بهبود قابل توجهی نسبت به مدلهاي رقیب دارد.
١- مقدمه
امروزه مسئلهي برچسبزنی رشتهي مشاهدات کاربردهاي بسیاري در حوزههاي مختلف مانند بینایی ماشین و پردازش زبان طبیعی، تصویر و گفتار دارد. بیشتر الگوریتمهاي استفاده شده در مسائل برچسبزنی رشته، مدلهایی احتمالاتی هستند و از استنتاجهاي آماري براي یافتن بهترین رشته استفاده میکنند. بعضی از این مدلها عبارتند از: مدل پنهان مارکوف [1]، میدان تصادفی شرطی [2]، پرسپترون [3]، [4] SVM-struct، N3 [5] و .[7] [6] SEARN از میان این روشها، مدل پنهان مارکوف و میدان تصادفی شرطی از بقیه معروفتر هستند و کاربرد بیشتري دارند.
مدل پنهان مارکوف از نوع مدلهاي احتمالاتی مولد است و در آن لازم است وابستگیهاي میان ویژگیهاي ورودي را مدل کنیم. این وابستگیها ممکن است بسیار زیاد و پیجیده باشند و بعضی از آنها در میان دادههاي آموزشی دیده نشوند. این مسئله ممکن است مدل را با مشکل روبرو کرده و مسئلهي استنتاج را رامنشدنی گرداند. میدان تصادفی شرطی از نوع مدلهاي افتراقی است. مدلهاي افتراقی با توجه به اینکه نیازي به مدلسازي وابستگیهاي در نظرگرفته شده در مدلهاي مولد ندارند، مهمترین انگیزه را براي جایگزینی با این مدلها دارند. میدان تصادفی شرطی توزیع احتمال روي تمام رشتهي برچسبها را به شرط رشتهي مشاهدات بدست میآورد. در این مدل براي تعیین برچسب هر عنصر، از برچسبهاي عناصر همسایه نیز استفاده میشود که این مسئله به قويتر کردن مدل کمک میکند.
مزایایی که میدان تصادفی شرطی نسبت به مدلهاي مشابه پیش از خود داشت سبب ترکیب آن با سایر مدلها و ساخت مدلهاي ترکیبی قدرتمندتري مانند میدان عصبی شرطی [8]، میدان تصادفی شرطی پنهان [9] و میدان تصادفی شرطی پنهان و پویا [10] شد. در این مقاله قصد داریم روشی جدید بر پایهي میدان عصبی شرطی، که یکی از انواع میدان تصادفی شرطی است، با کمک مدل ترکیب خبرگان [11] ارائه دهیم. در مدل میدان عصبی شرطی به جاي استفادهي مستقیم از ویژگیهاي رشتهي ورودي، ابتدا آنها را به یک شبکهي عصبی وارد کرده و سپس خروجی آنها را، که ویژگیهاي سطح بالاتري هستند، در یادگیري مدل استفاده میکنیم.
این کار به ما امکان مدلسازي بهتر در حالاتی را میدهد که ارتباطی پیچیده و غیرخطی میان رشتههاي ورودي و خروجی وجود دارد. در مدل میدان تصادفی شرطی بدون توجه به ساختار و توزیع دادههاي ورودي، صرفاً در تلاش براي یافتن ویژگیهاي سطح بالاتر هستیم؛ اما در مدل پیشنهادي سعی در ایجاد شبکههاي عصبی قويتر با توجه به توزیع دادهها و یافتن ویژگیهاي سطح بالاتر بهتري هستیم که افزایش کارایی مدل را به دنبال خواهد داشت.
مدل حاصل »میدان تصادفی شرطی تنظیم شده« نامیده شده است. کارایی مدل پیشنهادي در کاربرد تشخیص دستخط بررسی خواهد شد. در این کاربرد مجموعهاي از تصاویر حروف دستنوشته را به عنوان ورودي دریافت کرده و برچسب مناسبی به هر تصویر داده میشود. در ادامه در بخش دوم به مرور کارهاي مرتبط شامل مدل ترکیب خبرگان و میدان عصبی شرطی میپردازیم، سپس در بخش سوم مدل پیشنهادي ارائه میگردد. نتایج تجربی در بخش چهارم بررسی شده و در نهایت مقاله در بخش پنجم نتیجهگیري میشود.
٢- کارهاي مرتبط
١-٢- مدل ترکیب خبرگان
با اینکه بیش از 20 سال از معرفی مدل ترکیب خبرگان میگذرد، اما همچنان نقش مؤثري در کلاسبندي و رگرسیون در حوزههایی همچون سلامت، مالی، کاوش و تشخیص دارند. مدل ترکیب خبرگان بر مبناي اصل تقسیم و غلبه ساخته شده و داراي دو بخش شبکههاي خبره و شبکهي تنظیم است. این مدل مسأله را با تقسیم فضاي ورودي و دادن هر ناحیه از فضا به یک خبره و با کمک یک شبکهي تنظیم حل میکند .[12] همچنین شبکهي تنظیم، که مسئولیت انتخاب مناسبترین خبره براي هر بخش از فضا را دارد، میتواند به دو روش پیادهسازي شود: ضمنی و صریح. در روش ضمنی فضاي مسئله با کمک یک تابع خطا بصورت تصادفی به تعدادي زیر بخش تقسیمبندي میشود و خبرهها در هر یک از این زیربخشها یادگیري را انجام میدهند.
از آنجایی که تقسیمبندي فضاي مسئله با استفاده از یک فرآیند ضمنی رقابتی میان خبرهها انجام میگیرد آن را ضمنی مینامیم. در روش دوم فضاي مسئله با کمک یک روش خوشهبندي و پیش از آغاز فرآیند یادگیري مدل تقسیمبندي شده و سپس هر یک از خبرهها در یکی از این زیربخشها یادگیري را انجام میدهد. این روش صریح نامیده می شود .[13] در روش پیشنهادي از شبکهي عصبی به عنوان شبکهي خبره استفاده میشود و پیادهسازي شبکهي تنظیم به روش صریح انجام گرفته است، یعنی هر یک از رشتههاي ورودي با توجه به خوشهاي که از پیش از آغاز یادگیري مدل با کمک یک روش خوشهبندي به آنها منتسب شده است در یادگیري یکی از خبرهها یا شبکههاي عصبی به کار میرود.
انتخاب اینکه از کدام خبره در مدل استفاده شود بر عهدهي شبکهي تنظیم و بر اساس خوشهي تعیین شده براي رشتهي ورودي انجام میگیرد. براي پیادهسازي این شبکه در مدل ارائه شده، روش صریح انتخاب شده است؛ یعنی پیش از آغاز فرآیند یادگیري، مجموعهي رشتههاي ورودي را خوشهبندي میکنیم. در مدل پیشنهادي پارامترهاي مربوط به خبرهها همگام با پارامترهاي مدل میدان تصادفی شرطی آموزش داده میشوند.
براي پیادهسازي صریح شبکهي تنظیم، به علت نامساوي بودن طول رشتههاي آموزشی، از خوشهبندي بر روي عناصر تشکیل دهندهي رشتهها استفاده میشود. به عنوان مثال مجموعه دادههاي آموزشی مربوط به تشخیص دستخط شامل مجموعه کلمات دستنوشته هستند که عناصر هر رشته، حروف تشکیل دهندهي آن کلمه را تشکیل میدهند. براي خوشهبندي رشتههاي ورودي، در ابتدا خوشهي عناصر مربوط به هر رشته را تعیین میکنیم و بر اساس اینکه بیشترین تعداد از عناصر آن در کدام خوشه جاي میگیرند، خوشهي رشتهي مطلوب را مشخص میکنیم. در این روش با ورود هر رشته از تمام عناصر آن براي آموزش یکی از خبرهها استفاده میشود.