بخشی از مقاله
*** این فایل شامل تعدادی فرمول می باشد و در سایت قابل نمایش نیست ***
پنهانشکنی روش Echo hiding در سیگنالهای صوتی
چکیده :
– در این مقاله یک روش مؤثر در کشف فایلهای صوتی که توسط روش پنهاننگاری Echo hiding در آنها پیام پنهان شده است، معرفی میشود. یکی از ویژگیهای متمایز این روش نسبت به روشهای دیگر آن است که در این روش به منظور رسیدن به دقت بیشتر، ابتدا سیگنال صوتی به سه گروه سیگنال سخنرانی، سیگنال موزیک سریع و موزیک آرام تقسیم میشود. سپس با توجه به تقسیم بندی صورت گرفته، ویژگیهای استخراج شده از فایلها در سه گروه و توسط شبکه عصبی RBF تعلیم داده میشود. برای بررسی روش پیشنهادی از 1000 فایل صوتی پنهاننگاری شده بوسیله روش Echo hiding، استفاده شده است. نتایج آزمایش از دقت بالای این روش نسبت به روشهای دیگر حکایت دارد.
کلید واژه- پنهاننگاری Echo hiding، پنهانشکنی، طبقه بندی کننده صوت، شبکه عصبی RBF
-1 مقدمه
هدف اصلی در پنهاننگاری، پنهانسازی داده و پیام در یک فایل میزبان است، بگونهای که شک اشخاص را در وجود داده پنهان در فایل برنمیانگیزد.[1] در پنهانشکنی( ( Steganalysis به دنبال کشف و تشخیص فایلها و سیگنالهای حامل پیام مخفی هستیم.
یکی از روشهای پنهاننگاری روش جایگذاری بیتهای پیام بصورت افزودن پژواک مصنوعی در سیگنال صوتی است. این روش با نام روش پنهاننگاری Echo hiding شناخته می-شود.در این روش ابتدا سیگنال صوتی به فریمهایی با اندازه مشخص تقسیم میشود. سپس با توجه به آنکه بیت پیام صفر باشد یا یک، مقدار تأخیر آن فریم به ترتیب σ0 و یاσ1 خواهد بود. مقدار تأخیر پژواک در فریمها به گونهای انتخاب میشود که اثر تخریبی از نظر شنونده نداشته باشد.
در مرحله آخر نیز فریم اصلی با فریم تأخیر یافته و تضعیف شده، جمع و سیگنال پنهاننگاری شده را میسازد.ECHO
یکی از نرم افزارهایی است که بوسیله این روش پنهانسازی در صوت را انجام میدهد. در این مقاله بدنبال پنهانشکنی سیگنالهای صوتی که بوسیله این روش پنهاننگاری شده-اند، هستیم. در ادامه بصورت خلاصه به روشهای موجود در پنهانشکنی صوت اشاره میشود.
در [2] روشی بر اساس استخراج ویژگیهای آماری از سیگنال صوتی ارائه شده است. در این روش، ابتدا مقادیر میانگین، انحراف معیار، میزان تقارن تابع توزیع( skewness ) و میزان کشیدگی توزیع( ( kurtosis برای فریمهای سیگنال بعنوان چهار ویژگی از سیگنال اصلی بدست میآید و در مرحله بعد همین مقادیر برای سیگنال اختلاف ناشی از سیگنال اصلی و سیگنال تقریب زده شده بدست میآید. در
[3] نیز مشابه این روش در فضای تبدیل موجک با استفاده از تابع Haar و با عمق چهار استفاده شده است. روش ارائه شده در [4]، پارامترهایی را برای تشخیص معرفی میکند که میزان کیفیت سیگنال را در سه حوزه زمان، فرکانس و
حوزه ادراکی نسبت به سیگنال تخمینی بدست میآورد.
پنهانشکنی در [5] نیز بدین صورت است که پس از دو مرحله پنهاننگاری در سیگنال ورودی، فاصله همینگ( ( hamming بین دو سیگنال ورودی و خروجی هر مرحله استخراج میشود و بوسیله این دو ویژگی سیگنال ورودی در دو دسته سیگنال حامل پیام و سیگنال فاقد پیام طبقهبندی میشود.
یکی از اشکالات و معایب این روشها میزان تأثیر ویژگی-
های استخراج شده با توجه به نوع سیگنال صوتی است. به این معنا که برخی از ویژگیهای استخراج شده برای تشخیص در سیگنالهای صوتی موزیک مناسبتر و برخی ویژگیها بیاثر میباشند. از طرف دیگر بدلیل آنکه روش-های نامبرده از جمله روشهای عمومی جهت پنهانشکنی بشمار میروند، لذا ویژگیهای استخراج شده در پنهان-شکنی ECHO چندان مؤثر نیستند.
در این مقاله پنهانشکنی در فایلهای صوتی با فرمت Wav مد نظر است که توسط روش Echo hiding، پنهانسازی بر روی آنها انجام شدهاست. در این روش ابتدا سیگنال صوتی به سه دسته سیگنال صوتی سخنرانی، سیگنال موزیک ریتم تند و ریتم کند تقسیم می شود، که روش کار در بخش دوم توضیح داده شدهاست. در بخش دوم چگونگی تشکیل بردار ویژگی جهت طبقهبندی سیگنال در دو دسته سیگنال حامل پیام مخفی و سیگنال فاقد پیام مخفی شده، توضیح داده میشود. در این بخش نتایج پیادهسازی و آزمایش الگوریتم و نیز الگوریتم بهبود یافته آورده شده است. در بخش انتهایی نیز نتیجهگیری و پیشنهاداتی برای توسعه روش ارائه شده است.
-2 تفکیک سیگنال صوتی
دسته بندی سیگنال صوتی در سه گروه به صورت
سخنرانی( Speech )، موزیک ریتم کند( ) وموزیک ریتم تند( ( Disco Music انجام می شود. برای این کار هشت ویژگی از سیگنال مورد نظر، بصورت زیر استخراج میشود.
در ادامه سیگنال اصلی را با X و نمونههای سیگنال را با xiنشان میدهیم. با توجه به آنکه سیگنالهای صوتی در این سه دسته در ضرایب فرکانس بالای طیف فرکانسی اختلاف دارند، سه ویژگی اول از ضرایب ویولت cD1 ، cD2 و cA1، با استفاده از تابع Haar و با عمق دو بدست میآید. ضرایب مربوط به سیگنال را با Yi نشان میدهیم. برای بدست آوردن این سه ویژگی، ابتدا ضرایب Yi را به فریمهای به طول 10 میلی ثانیه تقسیم میکنیم. سپس این فریمها از نظر میزان عبور از صفر برررسی میشوند و با ZCR نمایش داده میشود. رابطه (1) این ویژگی را توصیف میکند.[6]
پس از محاسبه رابطه (1)، میزان انحراف معیار در فریمهای هر ضریب، بعنوان ویژگی استخراج میشود.
برای بدست آوردن سه ویژگی دیگر، سیگنال X به فریمهای با طول 1024 نمونه تقسیم شده و توسط دو رابطه (2) و (3) نمونههای xi به xih تبدیل میشوند.[6]
در مرحله بعد، مرکز ثقل فرکانسی هر فریم را مطابق رابطه(4) بدست آورده و میانگین و انحراف معیار مقادیر بدست آمده، دو ویژگی دیگر را تشکیل میدهند.[6]
در رابطه بالا F(u) تبدیل فوریه سیگنال در فریم مورد نظر است.
ویژگی ششم میزان انرژی طیف فرکانسی را در فریمها اندازه گرفته و مقدار میانگین آنها را به عنوان ویژگی استخراج میکند. برای استخراج انرژی از محدوده خاصی از طیف استفاده شده است که با توجه به آزمایشات متعدد، مناسب تشخیص داده شده است. رابطه (5) این ویژگی را توصیف میکند.[6]
پس از بدست آوردن بردار ویژگی، توسط یک شبکه عصبیMulty Layer Perseptron )MLP )، سیگنال صوتی در یکی از سه دسته سخنرانی، موزیک ریتم ملایم و موزیک ریتم تند قرار میگیرد.
در جدول (1) میزان تشخیص و تفکیک این سه دسته سیگنال صوتی نشان داده شدهاست.
جدول :(1) میزان تشخیص و تفکیک سیگنالهای صوتی
-3 ساختار الگوریتم
افزودن پژواک یا اکو بصورت مصنوعی در سیگنال علیرغم آنکه از نظر شنیداری تأثیر قابل توجهی بر کیفیت سیگنال ندارد اما باعث ایجاد تغییراتی در انرژی سیگنال خواهد شد. ضرایب کپسترال( ( Cepstral سیگنال صوتی یکی از معیارهای مناسب در این زمینه است. در حالتیکه سیگنال دارای پژواک باشد، ضرایب کپستروم سیگنال در این نواحیدارای پیکهای محلی( ) خواهند بود، که نشاندهنده میزان همبستگی بیشتر انرژی در این نواحی است. البته در روشهای مختلف پنهاننگاری به منظور حفظ کیفیت سیگنال، میزان تأخیر σi بگونهای انتخاب میشود که پیکهای مشاهده شده در سیگنال چندان قابل تشخیص نیست.
در شکل 1 به ترتیب ضرایب کپستروم در سیگنال اصلی و سیگنال پنهاننگاری شده بوسیله روش Echo hiding آورده شده است. در ردیف سوم از شکل نیز اختلاف آنها نمایش داده شدهاست. همانطور که در شکل دیده میشود، میانگین اختلاف ضرایب نزدیک به صفر است. این موضوع نشان می- دهد که در اثر این نوع پنهاننگاری، انرژی سیگنال تغییر زیادی نمیکند. از طرف دیگر و همانطور که در شکل 1مشخص شدهاست، ضرایب سیگنال پنهاننگاری شده دربرخی نقاط دارای پیکهای محلی است.
در الگوریتم پیشنهادی، سیگنال مورد نظر به فریمهایی به طول تقریبی 45 میلی ثانیه تقسیم میشود. با توجه به آنکه سیگنالهای صوتی مورد آزمایش با فرکانس 44,1 کیلو هرتز نمونه برداری شدهاند، تعداد نمونه در هر فریم برابر2048 نمونه انتخاب شد. سپس برای جلوگیری از پدیده تداخل طیف انرژی، هر فریم در پنجره همینگ( Hamming) با طول مشابه با فریم ضرب میشود. اگر نمونههای بدست
در مرحله بعد مقدار میانگین، میزان تقارن تابع توزیع( ( skewness و میزان کشیدگی توزیع( ( kurtosis ضرایب کپستروم بدست آمده از مرحله قبل محاسبه میشود. دو ویژگی اول طبق روابط (7) و (8) بدست میآیند.
در دو رابطه (7) و M (8) برابر تعداد کل فریمها در سیگنال صوتی مورد نظر است.