بخشی از مقاله
چکیده
مدلهای گرافی احتمالاتی با لایه مخفی چارچوبی قدرتمند برای دستهبندی دنبالهای از دادهها ارائه میکنند. میدان تصادفی شرطی با حالات پنهان - - HCRF از جمله مدلهای تفکیکی است که از لایه مخفی استفاده کرده و وزنهای مشترکی را برای تمامی قابها یاد میگیرد. در این مقاله با الهام از HCRF مدلی جدید معرفی میکنیم که در پنجرهای از متغیرهای مخفی وزنهای مجزا - غیرمشترک - برای هر متغیر مخفی یاد میگیرد.
همچنین در مدل پیشنهادی، بر خلاف HCRF، تعداد حالات مخفی برای هرکدام از متغیرهای پنهان عضو پنجره میتواند متفاوت انتخاب شود. این کار با کاهش فضای حالت جستجو برای متغیرهای مخفی سرعت و کیفیت استنتاج را بهبود داده و امکان انتساب ناهمسان اهمیت به تک فریمها را فراهم میآورد. در عین حال ما با اتصال زنجیروار خروجی پنجرههای متوالی امکان نشر اطلاعات بین برچسبهای هر پنجره را فراهم میآوریم. آزمایشهای ما بر روی کاربرد تشخیص حالت دست صورت گرفته که نشاندهنده عملکرد بهتر مدل پیشنهادی نسبت به سایر مدلهای گرافی احتمالاتی در این حوزه است.
-1 مقدمه
یکی از مسائل مهم در دنیای واقعی برچسبدهی به دنبالهای از دادهها است. در این گونه مسائل با استفاده از مشاهده دنبالهای از قابهای پشت سرهم به دنبال یافتن برچسب متناظر با هرکدام از قابها هستیم. از جمله کاربردهای مهم در این زمینه میتوان تشخیص حالات حرکت را نام برد که در واقع به دنبال تفسیر نمادهایی است که با استفاده از حرکات بدن یا بخشی از آن مثل دست ارائه میشوند.
انجام تحقیقات بر روی کاربرد تشخیص حالات حرکت میتواند برای درک زبان بدن انسان توسط رایانهها مفید واقع شود. برای حل مسائلی از این دست، عموماً از مدلهای گرافی احتمالاتی استفاده میشود. این مدلها خود به دو گروه مدلهای مولد1 و تفکیکی2 تقسیمبندی میشوند. در مدلهای مولد به دنبال بازنمایی توزیع مشترک بین ورودی و خروجی هستیم. از این رو در این مدلها نیاز به مدل کردن توزیع احتمال پیشین ورودی وجود دارد. از جمله مدلهای مهم در این حوزه مدل پنهان مارکوف3 و میدان تصادفی مارکوف4 را میتوان نام برد.
در برخی از کاربردها مدل کردن داده های ورودی و بازنمایی توزیع بر روی آنها کاری سخت و پیچیده است. از این رو مدلهای تفکیکی در این زمینه مفید به نظر میرسند زیرا در این مدلها با توجه به شرطی شدن بر روی داده های ورودی دیگر نیازی به مدلسازی و بازنمایی آنها وجود ندارد. در مدلهای تفکیکی به دنبال بازنمایی توزیع شرطی بر روی دادههای ورودی هستیم.
مدلهای گرافی احتمالاتی را همچنین میتوان از حیث داشتن یا نداشتن لایه مخفی مورد دستهبندیهای ریزتری قرار داد. برای مثال مدل پنهان مارکوف دارای یک لایه مخفی است که در تشخیص ساختارهای پیچیده به آن کمک میکند. این مدل یک مدل مارکوف آماری است که در آن سامانه مدل شده به صورت یک فرایند مارکوف با حالتهای پنهان فرض میشود. میدان تصادفی مارکوف، مدل مولد دیگری است که لایه مخفی ندارد. این مدل نمونهای از یک مدل آماری است که ارتباط و استقلال بین متغیرهای تصادفی را به کمک یک گراف ساده و بدون جهت مدل میکند
در مقابل مدلهای گرافی احتمالاتی تفکیکی قدرتمند میدان تصادفی شرطی5 و میدان تصادفی شرطی با حالات پنهان که توزیع احتمال برچسب به شرط مشاهدات را به صورت مستقیم مدلسازی کرده و بنابراین، نواقص مدلهای مولد را، که توزیع مشترک برچسب و مشاهدات را با فرض مستقل بودن مشاهدات به شرط برچسب محاسبه میکنند، دارا نمیباشند. در میدان تصادفی شرطی با توجه به نداشتن لایه مخفی نمیتوانند به خوبی ساختارهای درونی بین دادههای ورودی را یاد بگیرند. در ساختار این مدل بین ورودی و برچسبها رابطه میانی دیگری وجود ندارد که این امر موجب عدم استخراج کافی اطلاعات از ساختار دادهها میشود
مدل میدان تصادفی شرطی با حالت پنهان6 با اضافه کردن لایه مخفی به مدل CRF به دنبال استخراج روابط بین ساختارهای ورودی و در نتیجه عملکرد بهتر نسبت به آن بود . 4 این مدل توزیع مشترک بین حالات مخفی و برچسبها را با شرط مشاهده نمودن ورودیها بازنمایی میکند.
در این مقاله ما مدل HCRF پنجرهای با پارامترهای غیرمشترک را ارائه میدهیم که با استفاده از پنجرهای که بر روی حالات مخفی تعریف میکند میتواند برای هرکدام از قابهای پنجره وزنهای متفاوتی را یاد بگیرد. مدل HCRF یک الگو برای دنبالهای از دادهها معرفی میکند که این الگو برای تمام قابهای دنباله تکرار میشود. منظور از این الگو همان وزنهای مدل هستند که در مرحله آموزش یاد گرفته شدهاند. این وزنها نشاندهنده میزان وابستگی ارتباطات متغیرهای مختلف به هم هستند.
مدل HCRF این وزن-ها را برای قابهای کل دنباله تکرار میکند یا به عبارت دیگر وزنها در مدل به اشتراک گذاشته میشوند. مدل پیشنهادی ما بر روی پنجرهای با اندازه ثابت کار میکند که بر روی دنباله ورودی لغزانده میشود تا تمامی بخشهای آنرا پوشش دهد. اندازه پنجره با توجه به کاربرد مورد نظر توسط طراح مدل مشخص میشود. بدین صورت برای هر قاب از ورودی واقع شده در پنجره، وزنهای متفاوتی یاد گرفته میشود.
با توجه به حرکت پنجره لغزان با اندازه ثابت بر روی دادهها، مدل همواره با دنبالههای با طول مشخص - همان اندازه پنجره - آموزش میبیند و لذا یادگیری پارامترهای غیرمشترک ممکن میشود. از طرفی در مرحله آزمون این قابلیت وجود دارد که در کاربردهایی که تنها به یک برچسب برای کل دنباله ورودی نیاز است، مدل بر روی کل دنباله استنتاج انجام دهد و به دقت بالاتری دست یابد. در عین حال همیشه پردازش ابتدایی در سطح پنجره انجام میشود. به بیان دیگر در مرحله آزمون، پنجره تعریف شده بر روی حالات مخفی بر روی دنباله ورودی با گام یک قاب حرکت داده شده و برچسبهای هر کدام از این پنجرهها در لایه جدیدی به هم مرتبط میشوند. در واقع در این لایه جدید سازگاری برچسبها با هم مورد پردازش قرار میگیرد.
همچنین ما برای هر قاب در پنجره تعریف شده میتوانیم تعداد حالات مخفی را به صورت دستی انتخاب نماییم که با این کار فضای حالات مخفی کاهش پیدا میکند اما در مدل HCRF برای تمام فریمهای دنباله تعداد حالات مخفی ثابت در نظر گرفته میشود. ما در مدل پیشنهادی برای فریم-های میانی با توجه به اینکه اهمیت بیشتری دارند تعداد حالات بیشتری در نظر میگیریم.
-2 کارهای مرتبط
از جمله اولین مدلهای گرافی احتمالاتی که در حوزه تشخیص حرکت انسان مورد استفاده قرار گرفت،مدل پنهان مارکوف بود. از این مدل برای تشخیص حرکت سر استفاده شد . 1 در همان سال مدل تفکیکی CRF معرفی شد که برای دنبالهای از دادهها مورد استفاده قرار گرفت . 2 چند سال بعد از این مدل برای تشخیص حرکت متنی7 انسان استفاده گردید و توانست نسبت به مدل پنهان مارکوف عملکرد بهتری داشته باشد
در ادامه تعمیمی از مدل CRF با نام CRF پویا معرفی شد که ساختار و پارامترهای را بر روی مدل تکرار میکند و با این کار میتواند روابط پیچیدهتر بین دادههای ورودی را بهتر مدل کند
در سال 2007 با اضافه کردن لایه مخفی به مدل CRF مدل جدید HCRF ارائه شد که با استفاده از حالات مخفی زیرساختارهای درونی و بیرونی دادههای ورودی را تشخیص داده و در نتیجه استخراج اطلاعات برای شناسایی برچسب دنباله ورودی را بهتر انجام میدهد. از این مدل برای داده-های تقطیع شده استفاده میشود که در آن به هر دنباله تنها یک برچسب تعلق میگیرد. این مدل برای اولین بار در حوزه تشخیص حالات حرکت استفاده گردید . 4 در همان زمان مدل دیگری ارائه شد به نام میدان تصادفی شرطی پویای پنهان 8 که برای دنبالههای دارای چند برچسب مورد استفاده قرار میگرفت
بر خلاف نگاه متداول ستنی در مدلهای احتمالاتی که تمامی داده مشاده شده در هر حالت را در یک متغیر واحد تحت نام مشاهده جمع میکند، میتوان هر ویژگی قابل استخراج از دادههای خام را به صورت یک متغیر مشاهدهشده جدید و جدا از سایر مشاهدات به مدل اضافه کرد . 18 در کار یل سونگ و همکاران 6 ، این نگرش با درنظر گرفتن ویژگیهای استخراج شده از ورودی خام دنبال شده و برای هر قاب چند متغیر ورودی در مدل منظور شده است. آنها توپولوژیهای مختلفی را برای ارتباط بین حالات مخفی و ورودی مطالعه کرده و مدلهای HCRF متصل9 و HCRF تزویجی10 را معرفی میکنند. همچنین در این مقاله گونههای جدیدی نیز برای میدان تصادفی شرطی پویای پنهان معرفی میشود.
برای استخراج روابط غیرخطی و پیچیده دنباله دادههای ورودی میتوان از شبکه عصبی در مدلهای تفکیکی کمک گرفت. در سال 2009 مدل میدان عصبی شرطی 11 ارائه شد که بین لایه ورودی و خروجی مدل CRF یک لایه شامل تعدادی توابع گیت12 اضافه میکند. همچنین در این مقاله پارامترهای شبکه عصبی همراه با پارامترهای مدل آموزش داده میشود . 15 پس از این برای مدل HCRF نیز از این روش استفاده شد که در آن لایه مورد نظر بین ورودی و لایه مخفی قرار میگیرد
یادگیری سلسله مراتبی از جمله روشهایی است که در حوزه مدلهای گرافی نیز مورد بررسی قرار گرفته است. در مدل تفکیکی CRF یادگیری سلسله مراتبی استفاده میشود. در این مدلها هدف اصلی استفاده از لایه پایین مدل برای ساخت لایه بالاتر است . 21,20 مدلCRF با ساختار عمیق13 همانند دیگر روشهای سلسله مراتبی دارای چندین لایه ساده CRF است تا بتواند اطلاعات بیشتری از روابط بین دادگان ورودی استخراج نماید. اما هدف اصلی این مدل، یادگیری لایههای میانی با استفاده از داده-های ورودی و ترکیب همه این اطلاعات با هم است. این کار را با پیشآموزش بدون ناظر لایه به لایه مبتنی بر آنتروپی و تنظیم دقیق مبتنی بر پسانتشار درستنمایی انجام میدهد . 14 یک سال بعد همین روش برای مدل HCRF استفاده گردید و نام آن HCRF با ساختار عمیق گذاشته شد که لایه متغیرهای مخفی به لایه پایانی مدل قبل اضافه شده است
یل سونگ و همکاران 11 نیز یک روش سلسله مراتبی برای نمایش ویژگی-های ورودی در نظر گرفتند که در هر مرحله ویژگیهای ورودی را به گونهای خلاصهسازی میکند که مشاهدات شبیه هم را به جای اینکه در چند قاب نشان دهد، در یک قاب آنها را نمایش میدهد. برای یادگیری دنبالهها در هر مرحله از HCRF استفاده شده که از متغیرهای مخفی آن برای نمایش دنباله جدید استفاده میشود و در هر مرحله خلاصهای از ویژگیهای ورودی مرحله قبل یاد گرفته میشود. در ادامه نیز یک روش فیلتر چندلایه با یک پنجره زمانی برای برچسبدهی و تقطیع دنبالهها ارائه گردید و از آن برای تشخیص حرکت استفاده شد.
اخیرا از شبکههای عصبی پیچشی14 برای ترکیب با مدلهای گرافی استفاده گردیده است. در این تحقیق یک مدل مکانی-زمانی15 شبکه عصبی پیچشی جدید برای ترکیب با میدان تصادفی شرطی استفاده شده است. این مدل از یک شبکه عصبی پیچشی جدید برای استخراج ویژگیهای مناسب از ورودی خام استفاده میکند و سپس از یک میدان تصادفی شرطی برای پیشبینی برچسبهای هر قاب استفاده میکند. از اینرو نام این مدل میدان تصادفی عصبی پیچشی16 نامیده شد.
در تعدادی دیگر از کارها با توجه به اینکه استفاده از دادهها با ابعاد بالا نیاز به دادههای آموزشی زیاد برای جلوگیری از بیشبرازش17 دارد میتوان با کاهش ابعاد ویژگیهای خام ورودی از دادههای آموزشی کمتری استفاده نمود. برای کاهش کافی ابعاد دادههای ورودی با استفاده از روش کاهش ابعاد دنباله با کرنل18 این کار را انجام داد. در این روش دیگر ما فرضیات قوی بر روی توزیع دادههای ورودی نداریم
-3پیشزمینه
فرض کنیم میخواهیم برچسبهای y را از ورودی شناسایی نماییم. هر برچسب y عضو مجموعه Y است که شامل همه برچسبهای ممکن است و هر بردار x یک بردار مشاهدات = { 1 … } است. هرکدام از بهوسیله یک بردار ویژگی d بعدی نشان داده میشود. ما برای هر نمونه ورودی یک بردار متغیرهای پنهان = {ℎ1 … ℎ } فرض میکنیم و هر ℎ متناظر با یک برچسبدهی است. با استفاده از تعریفهای انجامشده میتوان مدل احتمالاتی شرطی با متغیرهای پنهان را بهصورت زیر تعریف نمود:
که = { , } پارامترهای مدل و - , , ; - ∈ ℜ تابع پتانسیل است. پارامتر نشاندهنده پتانسیلهای مرتبه یک و نشاندهنده پتانسیلهای مرتبه دو است.
در مدل HCRF برای کل دنباله یک برچسب انتخاب میشود و وزنهای آموزش داده شده برای هر قاب تکرار میشوند. به عبارتی وزنهای بین حالات مخفی و ورودی و خروجی برای تمام قابها به اشتراک گذاشته شدهاند.در شکل 1 مدل گرافی HCRF را مشاهده میکنید. در مدل HCRF تعداد حالات مخفی در هر قاب با هم برابر بوده و همچنین وزنها در هر قاب تکرار میشوند. همانطور که در شکل 1 مشاهده میکنید در این مدل سه نوع پتانسیل وجود دارد. میتوان توابع پتانسیل به صورت دو تابع ویژگی f و g معرفی کرد که به صورت زیر نمایش داده میشود