بخشی از مقاله
چکیده:
یکی از رایجترین کاربردهای واسط مغز-کامپیوتر در هجی کننده مؤلفه P300 است که با استفاده از آن، کاربر با تمرکز بر روی یک کاراکتر قادر به تایپ کردن آن با استفاده از سیگنال مغزی خود میباشد. یک چالش مهم در این فرآیند اشتباه شدن برخی کاراکترها با هم میباشد که به علت تغییرپذیری سیگنالهای مغزی و تشابه پاسخهای به دست آمده از یک کاراکتر، رخ میدهد.
در این مقاله روش یادگیری مبتنی بر شبکه عصبی با ساختار عمیق کانولوشن برای مقابله با این چالش پیاده-سازی و بر روی دادهگان واقعی هجی کننده مؤلفه P300 آزموده میشود. به منظور تحلیل اثر بخشی روش فوق، نتایج حاصل از آزمون این شبکه عصبی با نتایج حاصل از عملکرد یک شبکه عصبی پرسپترون چند لایه با آموزش پس انتشار خطا، مقایسه میشوند.
بر این اساس، روش یادگیری عمیق مبتنی بر شبکههای کانولوشنی مقدار دقت 90/59درصد را برای تفکیک 29 کاراکتر حاصل مینماید. این در حالی است که روش مبتنی بر شبکه عصبی کلاسیک در بهترین حالت و فقط برای 5 کاراکتر، به دقت 45/12 درصد دست مییابد و با افزایش تعداد کاراکترها عملاً تفکیکی بین آن ها ایجاد نمی-کند. این نتایج حاکی از آن هستند که استفاده از ساختارهای عمیق میتواند به عنوان گزینهای مناسب برای بالا بردن دقت طبقهبندی در فناوری هجیکننده P300 مورد استفاده قرار گیرد.
.1 مقدمه
از سالیانگذشته تا کنون، پی بردن به فعالیت های پیچیده مغز جزء موضوعات جذاب برای پژوهشگران این حوزه بوده است. خصوصاً در سال های اخیر، که تحقیقات در حوزه سیگنال های مغزی با استقبال فراوانی رو به رو شده است. رابط مغز-کامپیوتر - - BCI2، یکی از جذاب ترین و پرکاربردترین زمینه های تحقیقاتی در این حوزه می باشد. این سیستم ها اغلب مورد توجه افرادی از جامعه قرار گرفته است که از معلولیت رنج می برند.
توسعه سیستم های BCI به چنین افرادی کمک می کند تا بتوانند استقلال فردی خود را در جامعه افزایش داده و در نهایت منجر به بهبود کیفیت زندگی و کاهش هزینه های اجتماعی می گردد.[1] یکی از متداول ترین کاربرد این سامانه ها عبارت از فناوری هجی کننده مؤلفه 3 P300 است. که در آن کاربر با استفاده از سیگنال مغزی خود و بدون دخالت دست قادر به تایپ کردن می باشد.
در فناوری هجی کننده مؤلفه P300 از الکترود های سطحی، که طبق استاندارد 10-20 به صورت غیر تهاجمی روی پوست سر نصب می گردند، استفاده می شود زیرا استفاده از این نوع الکترود ها از لحاظ ایمنی برای کاربر مناسب تر می باشد.[2] روش ثبت سیگنال P300 در این گونه سیستم ها، به این صورت است که از کاربر خواسته می شود تا بر روی یک کاراکتر که می تواند شامل حروف و اعداد باشد، تمرکز کند با تمرکز فرد، یک الگوی P300 در سیگنالEEG4 او ثبت می گردد.سیگنال P300 یک بخش مثبت ناپایدار از سیگنال EEGاست که حدوداً 300 میلی ثانیه پس از تحریک رخ می دهد .
عوامل متعدد داخلی و خارجی می توانند در تولید این سیگنال موثر باشند و لذا با اعمال تحریک های یکسان می توان P300 های متفاوتی را از سیگنال مغزی استخراج کرد. بر این اساس نمی توان گفت الگو های بدست آمده از یک کاراکتر در همه موارد کاملاً مشابه هم هستند. از سوی دیگر، نسبت سیگنال به نویز - SNR5 - برای P300 نسبت به سیگنال EEG کمتر بوده و لذا دو محدودیت اخیر، تشخیص کاراکتر را از روی ثبت P300 از سیگنال مغزی دشوار می کنند. از این رو استفاده از طبقه بندی مبتنی بر یادگیری ماشین برای تشخیص کاراکتر از روی سیگنال P300 در سالیان اخیر به موضوعی جذاب برای محققین این حوزه بدل شده است.
تا کنون روش های مختلفی برای انجام طبقه بندی مزبور، پیشنهاد شده اند که چالش اصلی در آن ها حصول دقت قابل قبول در شرایط افزایش تعداد کاراکترهای مورد شناسایی است. ماشین بردار پشتیبان [4] - SVM6 - به منظور تفکیک صحیح کلمات مطرح شد.
در این روش از کرنل گوسی به منظور منعطف کردن مرز تصمیم در فضای داده موجود، استفاده می شود که این امر در نهایت منجر به افزایش دقت طبقه بندی می گردد. محدودیت این روش، حساسیت آن به برخی پارامترهای الگوریتم ماشین بردار پشتیبان می باشد. چرا که در این شیوه، برای حصول حاشیه اطمینان مناسب توسط ابر صفحه جدا کننده کلاس ها، تنظیم دقیق این پارامتر ها ضروری است.
یک توسعه مفید از ماشین بردار پشتیبان در [5] ارایه شده است که در آن برای تشخیص تعداد مشخصی از کاراکترها از خطوط تفکیک کننده استفاده می شود به گونه ای که در هر خط جداکننده، یک ماشین بردار پشتیبان آموزش می بیند.
سرانجام، نتایج بدست آمده از ماشین های بردار پشتیبان مزبور، با هم جمع شده و بر اساس امتیاز حاصله، تشخیص کاراکتر ها انجام می پذیرد. در دسته دیگری از پژوهش ها، از مفهوم یادگیری ماشین مبتنی بر گرادیان افزایشی[6]7 به منظور افزایش دقت طبقه بندی در فرآیند هجی کننده مؤلفه P300 استفاده شده است. در شیوه مزبور روش حداقل مربعات معمولی - OLS8 - با درخت رگرسیون9مقایسه می شود و ثابت می کند که استفاده از OLS در کنار افزایش گرادیان بهتر از درخت رگرسیون می باشد.
ضعف عمده این روش، وابستگی آن به تعداد دفعات تکرار الگوریتم است که مقدار بهینه این پارامتر مشخص نمی باشد. استفاده از شبکه های عصبی برای طبقه بندی مزبور در [7] ارایه شده است. ورودی شبکه های عصبی، شامل ویژگی هایی می باشد که از مجموعه داده استخراج شده اند. به دست آوردن ویژگی های مطلوب، بسیار مشکل است و همچنین وابستگی نتیجه نهایی به ساختار شبکه و مدت زمان نسبتاً طولانی برای آموزش شبکه، از دیگر نقاط ضعف این روش می باشد.
روش های مبتنی بر طبقه بندی کننده یادگیری تدریجی در تحقیقات دیگری به منظور تفکیک کاراکترها در هجی کننده مؤلفه P300 مورد استفاده قرار گرفته اند. در این روش ایده یکه سازی برداری با یادگیری همراه با نظارت - LVQ - 10 استفاده می شود. ابزار LVQ یک نوع خاص از شبکه های عصبی رقابتی می باشد که به کار خوشه بندی داده ها می پردازد. از این رو می توان محدودیت های ذکر شده برای شبکه های عصبی را نیز به این روش هم نسبت داد.
در ادامه همین مقاله از روش یکه سازی برداری توام با یادگیری همراه با نظارت - mLVQ - 11 استفاده می شود. روش ذکر شده، توسعه یافته LVQ می باشد که در آن یک مدل LVQ برای هر کانال ساخته می شود. ساخت یک مدل جداگانه برای هر کانال می تواند نتایج قابل قبول تری را به همراه داشته باشد، اما نباید فراموش کرد که این کار باعث مشکل در حافظه می گردد. تجزیه و تحلیل تفکیک کننده خطی - LDA - 12 یا - FLD - 13 یکی از روش های آماری در یادگیری ماشین می باشد
روش LDA به صورت خطی به کار طبقه بندی کلاس ها می پردازد اما این روش، ارتباط نزدیکی با تحلیل مولفه های اصلی - PCA - 14 دارد. پس نتیجه می شود که این روش هم، وابستگی شدید به ویژگی های استخراج شده دارد. ابزار 15 حالت تعمیم یافته این روش است [7] که به صورت غیر خطی KFD داده ها را طبقه بندی می کند. غیر خطی بودن مرز های تصمیم، کمک می کند تا دقت طبقه بندی افزایش یابد ولی همچنان پیدا کردن ویژگی های مناسب یکی از معضلات آن به شمار می رود.
روش های طبقه بندی پیشگفته، عمدتاً نیازمند روش های استخراج ویژگی های مناسب از داده ها می باشند. این در حالی است که استخراج ویژگی های مفید از داده، کار چندان آسانی هم نیست و ممکن است ویژگی هایی که برای یک مجموعه دادگان قابل استفاده است برای یک مجموعه یا کاربرد دیگر، قابل استفاده نباشد. از سوی دیگر، متاسفانه در این ساختارها، چنانچه ورودی همراه با نویز و اعوجاج باشد و یا مرحله استخراج ویژگی با دقت مناسب انجام نگرفته باشند، عملکرد فرآیند تشخیص به کمک کامپیوتر به طرز قابل توجهی افت می کند .
شبکه های عصبی عمیق، خانواده ای از شبکه های عصبی هستند که به طور مستقیم از ورودی تغذیه می شوند و نسبت به عوامل ناخواسته از قبیل نویز و اعوجاج ها مقاوم می باشند و از سوی دیگر به صورت همزمان ویژگی های سطح بالا را برای انجام طبقه بندی استخراج می نمایند. در این مقاله کارایی این مفهوم با استفاده از شبکه موسوم به شبکه عصبی کانولوشنی - CNN - 16 در تشخیص کاراکتر به کمک الگوی P300 بررسی شده و حساسیت آن نسبت به افزایش تعداد کاراکترها به عنوان چالش اغلب روش های طبقه بندی متداول، ارزیابی می گردد. ساختار کلی این مقاله به صورت زیر است.
در بخش 2 الگوریتم پیشنهادی مبتنی بر یادگیری عمیق، تشریح می شود. در بخش 3 عملکرد روش پیشنهادی با استفاده از آزمودن آن بر روی مجموعه ای از دادگان واقعی P300 ارزیابی شده و نتایج حاصل با یکی از روش های موجود، مقایسه می گردد. بخش پایانی مقاله نیز به نتیجه گیری اختصاص دارد.
.2تشریح روش پیشنهادی
شبکه های عصبی، نوعی از روش های محاسباتی هستند که یکی از وظایف آن ها پیش بینی و طبقه بندی داده ها می باشد. این نوع از سیستم ها بر گرفته از شبکه های عصبی زیستی هستند. این سلول ها متشکل از مجموعه نرون ها و سیناپس ها می باشد، که نرون ها توانایی ذخیره سازی اطلاعات را بر عهده دارند و سیناپس ها انتقال اطلاعات از یک نرون به نرون دیگر را فراهم می کنند.
2؛.1 شبکه عصبی عمیق شبکه های عصبی کانولوشنی، روش های مبتنی بر یادگیری عمیق هستند که معماری بسیار عمیقی دارند. در این نوع خاص از شبکه، لایه های مختلفی به کار گرفته می شود. هر لایه متشکل از چندین زیر لایه است، که در این لایه ها ویژگی ها به صورت خودکار از داده استخراج می شوند. این ویژگی ها سلسله مراتبی بوده و به گونه ای هستند که هرچه به لایه های عمقی تر می رویم ویژگی ها، غیر خطی تر و سطح بالا تر می شوند پس بر اساس این تکنیک به کار گرفته شده در شبکه های عصبی کانولوشنی، استخراج ویژگی و کار طبقه بندی داده ها در آن واحد انجام می پذیرد.
این شبکه ها در کاربرد های گوناگون به خصوص در پردازش تصویر به صورت چشمگیری مورد استفاده قرار گرفته اند و تجربه هم نشان داده که این ساختار ها در عمل، به علت معماری خاص و روابط حاکم بر آن ها توانسته اند نتایج قابل قبولی را کسب کنند. شبکه های عصبی کانولوشنی بر اساس 3 لایه اصلی می باشند که عبارت اند از: لایه کانولوشنی17،لایه ادغامو18 لایه تماماً متصل.19 یک نمونه از معماری های CNN در شکل 1 آورده شده است