بخشی از مقاله
چکیده -
در این مقاله بر آن هستیم تا با استفاده از تکنیکهاي تئوري اطلاعات، ظرفیت مخفیسازي داده را در یک سیستم نهاننگاري صوتی طیف گسترده مبتنی بر یک مدل روانشنیداري بهدست آوریم. منظور از ظرفیت مخفیسازي داده تعداد بیتهاي قابل مخفیسازي در یک صوت به شرط بازیابی بدون خطا - یا با خطاي به دلخواه کوچک - از صوت مورد حمله قرار گرفته است. با مدلسازي مناسب منابع نویز به صورت جمعشونده، نشان میدهیم که با انتخاب حوزه تبدیل مناسب و جاسازي در باندهاي غیرهمپوشان سیگنال میزبان میتوان به شکل چشمگیري ظرفیت مخفیسازي داده را افزایش داد.
-1 مقدمه
رشد سریع شبکههاي داده دیجیتال و نیز کاهش قیمت کامپیوترها و هزینه ارسال دیجیتال، کارآمدي و مطلوب بودن دادههاي دیجیتال را نسبت به همتاي آنالوگ خود افزایش داده است. لیکن، مشکلی که در حوزه رسانه دیجیتال با آن مواجه هستیم، چالش جدي حفظ حق نشر و جلوگیري از سرقت محتواي دیجیتال است. وفور دادههاي دیجیتال و نیز تنوع رسانهاي آنها از حیث نوع محتوا - صوت، تصویر و ویدئو - باعث شده تا ایده بهکارگیري ظرفیتهاي نهان این دادهها براي مخفیسازي مدنظر قرار گیرد.
روشهاي نهاننگاري دادههاي دیجیتال که بهترتیب به دو شاخه واترمارکینگ - Watermarking - و استگانوگرافی - Steganography - تقسیم میشوند، در پاسخ به دو نیاز بالا ابداع شدهاند. نهاننگاري دانش یا هنر پنهانکردن اطلاعات یا ارتباطات است به گونهاي که یک پیام در بطن پیام دیگري مخفی میشود. در این صورت به پیامی که قرار است مخفی شود، سیگنال پیام، امضا - Signature - یا واترمارك - Watermark - و به سیگنالی که حاوي این پیام است، میزبان - Host - یا پوشش - Cover - گفته میشود.
تاکنون روشهاي گوناگونی براي واترمارکینگ صوتی ارائه شده است. کدینگ بیت کمارزش تر، کدینگ پژواك، کدینگ فاز، مدولاسیون فاز، روشهاي چند تکهاي - Patchwork - ، روشهاي طیف گسترده و درخت تجزیه ویولت از جمله روشهاي اساسی و کارآمد در این زمینه هستند.
آنچه وجه تمایز این روش ها از هم میباشد، خصوصیاتی از قبیل حوزهاي از سیگنال - فرکانسی DCT - ، DFT، - Subband، زمانی، کپستروم - که فرآیند نهاننگاري در آن صورت میگیرد، نرخ داده نهانشده، مقاوم بودن در مقابل حملات یا پردازشهاي مرسوم، کیفیت ادراکی سیگنال میزبان پس از جاسازي پیام و سهولت پیادهسازي است. در [1] خاطر نشان شده است که برقراري یک مصالحه میان سه پارامتر نرخ پیام نهان، کیفیت ادراکی و مقاوم بودن آن در مقابل حملات امري اجتناب ناپذیر است.
آنچه در این مقاله مورد بررسی قرار خواهد گرفت، بهکارگیري یک روش تئوري اطلاعاتی براي تخمین ظرفیت کانال مخفیسازي اطلاعات در صوت است. البته، بهدست آوردن این نرخ با توجه به فرض حدود منطقی براي دو پارامتر دیگر مورد نظر است. آزمایشهاي صورت گرفته نشان میدهد که نرخ جاسازي در حوزه تبدیل و به خصوص تبدیلاتی با کدینگ گین بالا - GTC - مثل ویولت، به مراتب قرار گیرد، در گیرنده بیشتر از نرخ جاسازي در حوزه زمان است.
براي مقاوم بودن سیستم نهاننگاري، از طرح مبتنی بر طیف گسترده رشته مستقیم - زیرا طیف سیگنال پیام در حوزه فرکانس پخش شده و در نتیجه مقاومت آن در مقابل حملات افزایش مییابد - و براي برخورداري از کیفیت ادراکی مناسب، از یک مدل روان شنیداري مناسب و سازگار با ISO/MPEG استفاده میکنیم. سیستم واترمارکینگ ارائه شده کور - Blind - است و گیرنده در فرآیند بازیابی - Extraction - به سیگنال صوتی اصلی احتیاج ندارد. البته، نشان داده میشود که اگر فرآیند آشکارسازي کور نباشد، نرخ جاسازي به شکل چشمگیري افزایش خواهد یافت.
در بخش دوم مقاله به طرح موضوع میپردازیم.
در بخش سوم، مدل روانشنیداري سیگنال صوتی براي بهدست آوردن آستانههاي شنوایی در هر باند و نحوه جاسازي پیام ارائه میشود. در بخش چهارم، ظرفیت کانال نویز جمعشوند مورد بحث قرار میگیرد. در بخش پنجم، به مدلسازي نویز سیگنال صوتی و نویز پردازش میپردازیم و ظرفیت کانال مخفیسازي را بهدست میآوریم و بالاخره در بخش ششم نتایج پیادهسازي عملی ارائه شده است.
-2 طرح مسأله
فرض کنید W پیام با نمایش خاصی براي جاسازي در سیگنال میزبان S باشد. هر چند انرژي این سیگنال به مراتب بیشتر از سیگنال پیام است، ولی آن را از دیدگاه تئوري اطلاعات نویز در نظر میگیریم، زیرا در گیرنده هدف آشکارسازي W است. در نتیجه:
سیگنال میزبان پس از جاسازي پیام یا به عبارت دیگر، سیگنال اصلاح شده از نظر کیفیت ادراکی چندان قابل تمیز از S نیست. چون ممکن است این سیگنال مورد حمله یا پردازش مرسومی همچون Compression/Decompression
با اتلاف - Lossy - نظیر MPEG سیگنال زیر بهدست آمده است:
که ^ نگاشت پردازش است و منبع نویز دوم در کانال ناشی از این نگاشت است که به صورت جمعشونده در کانال مدل شده است
شکل :1 مدل کانال مخفیسازي داده.
هدف یافتن تعداد بیتهاي ماکزیممی است که میتوان درون سیگنال صوتی میزبان پنهان کرد و آنها را پس از پردازش با خطاي به دلخواه کوچک از درون سیگنال دریافتی استخراج نمود. به این تعداد بیت حداکثر براي مخفیسازي ، ظرفیت کانال مخفیسازي داده گفته میشود.
البته میتوان پیام را در حوزه تبدیل جاسازي کرد و بلوك دیاگرامی مانند شکل 2 براي فرآیند جاسازي و بازیابی در نظر گرفت:
شکل :2 مدل کلی مخفیسازي و بازیابی پیام
در بلوك دیاگرام شکل 2، سیگنال میزبان پس از تبدیل مستقیم به ضرایبی در L باند شکسته میشود. سپس یک مؤلفه از سیگنال پیام W به هر باند اضافه میشود. تبدیل معکوس سیگنال نهاننگاري شده Sˆ را میسازد. براي اینکه حمله پردازشی comp/decomp را مدل نماییم، سیگنال Sˆ به صورت متوالی از یک فشردهساز با نرخ مورد نظر عبور داده میشود و سپس عملیات معکوسی براي تبدیل آن به همان حالت غیرفشرده صورت میگیرد. اما، چون این عملیات با اتلاف مقداري از انرژي سیگنال همراه است، Sˆ و S_ کاملاً مشابه هم نیستند.
در ادامه براي اینکه پیام مخفی شده را تخمین بزنیم باید به حوزه تبدیل برویم و از تبدیل مستقیمی همانند آنچه براي جاسازي داشتیم، براي تجزیه سیگنال S_ به L باند استفاده نماییم. همانگونه که در مدل شکل 2 ملاحظه میشود، دو منبع نویز همانند شکل 1 وجود دارد. منبع نویز S ناشی از خود سیگنال میزبان است و نویز P ناشی از فرآیند فشردهسازي و معکوس آن است. اگر فرآیند آشکارسازي کور نباشد، یعنی آشکارساز به سیگنال میزبان S دسترسی داشته باشد میتواند آنرا از سیگنال دریافتی کسر نماید و لذا تنها منبع نویز فقط مربوط به پردازش سیگنال است و در چنین حالتی انتظار داریم که ظرفیت مخفیسازي داده بیشتر باشد.
هدفی که در این مقاله به دنبال آن هستیم عبارت است از مدلسازي پرداش سیگنال - در اینجا مدل خاص - MPEG
و یافتن تأثیر تجزیه سیگنال میزبان به L باند مستقل و جاسازي در حوزه تجزیه تبدیل.
-3 مدل ادراکی سیستم شنوایی و فرآیند جاسازي
انسان صداهایی را در محدوده فرکانسی 20Hz تا 20,000Hz و با دامنههاي متنوع میشنود. به نظر میرسد که شنوایی انسان سیستمی با پهناي باند بسیار زیاد باشد ولی این امر در اثر وفقی بودن سیستم شنوایی است، زیرا عملکرد سیستم شنوایی بسته به شرایط صوتی محیط تغییر میکند. این گونه عملکرد سیستم شنوایی انسان به خواص مهمی منجر میشود که در پردازش سیگنالهاي صوتی و به خصوص در فشردهسازي صوت مبتنی بر مدل ادراکی - Perceptual - کاربردهاي روزافزونی یافتهاند. از این خواص همچنین میتوان براي نهاننگاري صوتی استفاده کرد.
برخی از این خواص حاصل نحوه عمل فیزیکی گوش و بقیه نتیجه پردازشهاي انجام شده در مغز است.
گوش انسان در درون داراي یک ساختار حلزونی شکل با رویهاي بهنام غشاي پایه است که موج تولید شده توسط یک محرك آکوستیکی را به ارتعاشات مکانیکی تبدیل میکند.
موج تولید شده با حرکت در طول این غشاء اثرات مختلفی خواهد داشت که به مکان غشاي پایه بستگی دارد. در هر مکان گیرندههاي عصبی مختلفی قرار دارند که یک معادله مستقیم میان مکانشان و باندهاي فرکانسی مختلف صوت وجود دارد. لذا ساختار حلزونی گوش را میتوان متشکل از L - حدود - 25 باند غیر همپوشان دانست. این باندها به باندهاي بحرانی - Critical Bands - معروف هستند. شکل 3 این موضوع را نشان میدهد.
شکل :3 تبدیل فرکانس به مکان در طول غشاي پایه و فرکانس f - بر حسب - Hz را نشان میدهد:
البته براي اینکه بفهمیم چه محدوده فرکانسی در یک بارك خاص هستند، کافی است سقف - Ceil - معادله 3 را محاسبه نماییم. اگر سیگنال صوتی با نرخ نمونهبرداري f s گسسته شده باشد، f در محدوده [0, f s / 2] تغییر مینماید.
با استفاده از یک مدل ادراکی، میتوان آنالیزي روي سیگنال صوتی در این L باند - با توجه به نحوه عمل سیستم شنوایی - انجام داد و بر اساس آن آستانه شنوایی در هر باند بحرانی - یعنی حداقل انرژي سیگنال براي شنیده شدن - در آن باند را بهدست آورد. از این آستانه، میتوان براي شکلدهی سیگنال پیام و اضافه نمودن آن به سیگنال میزبان استفاده کرد. به طور شهودي، واضح است که اگر سیگنال پیام در زیر این آستانه قرار گیرد، با اضافه شدن به سیگنال میزبان در آن باند شنیده نخواهد شد. شکل 4 آنالیزي را که براي محاسبه آستانه شنوایی در هر باند و شکلدهی سیگنال پیام صورت میگیرد، نشان میدهد.
شکل :4 مدل روانشنیداري براي شکلدهی سیگنال پیام.
آنالیز سیگنال صوتی به صورت فریمی انجام میشود.
جداسازي فریمها با پنجرهاي همچون همینگ یا هنینگ صورت میگیرد که نشتی فرکانسی کمی دارند. در ضمن پنجرهها به میزان %75 همپوشان در نظر گرفته میشوند تا تأثیر پنجره بر کیفیت سیگنال بازسازي شده به حداقل برسد. - sw - n یک فریم پنجره شده از سیگنال صوتی میزبان است که با استفاده از یک FFTي -Nنقطهاي N - طول فریم - به حوزه DFT - یا فرکانسی گسسته با اندیس - k برده میشود. رابطه میان اندیس k و فرکانس f به صورت معادله - 4 - است