بخشی از مقاله

چکیده

در این تحقیق یک کنترل کننده نرخ بیت دو مرحلهای مناسب برای کاربردهای با نرخ بیت متغیر استاندارد HEVC ارائه شده استکه در سطح صحنه کار میکند. این الگوریتم برای همه تصاویر یک صحنه یک مقدار چندی کننده پایه محاسبه و استفاده میکند. بدین ترتیب کیفیت ویدئوی فشرده شده در طول یک صحنه نسبتاً ثابت نگه داشته شده و در نتیجه کیفیت ادراکی آن افزایش مییابد. نتایج پیادهسازی الگوریتم پیشنهادی و مقایسه آن با دو روش شناخته شده نشان میدهد که ضمن استفاده کامل از پهنای باند و رعایت قید بافر بدون هیچگونه سرریز یا پاریز بافر، ویدئوی بازسازی شده از کیفیت بسیار بالایی برخوردار است.
کلید واژه- ویدئو، کنترل نرخ بیت، برش صحنه، بافر، استاندارد

-1 مقدمه

امروزه کاربردهای ویدئوی دیجیتال به سرعت در حال گسترش است. از آنجاییکه حجم اطلاعات ویدئو زیاد است و محدودیتهایی از جمله محدودیت پهنای باند وجود دارد ناچار به فشردهسازی هستیم. در این راستا استانداردهایی نیز برای فشردهسازی ویدئو موجود است که جدیدترین آن H.265-HEVC1 میباشد [1] و .[2] ویدئوها را میتوان به دو روش بدون کنترل نرخ بیت و با کنترل نرخ بیت فشرده کرد. یکی از روشهایی که میتوان فشردهسازی بدون کنترل انجام داد روش پارامتر چندی کننده ثابت - CQP2 - میباشد. در این روش هیچ کنترلی روی نرخ بیت نیست، پارامتر چندی کننده در تمامی تصاویر ویدئو، ثابت و نرخ بیت میتواند متغیر باشد.

در اکثر کاربردها بخصوص در کاربردهای مخابراتی باید نرخ بیت کنترل شود. برای کنترل نرخ بیت نیاز به یک الگوریتم کنترل نرخ - RCA3 - داریم. از آنجاییکه در استاندارد، الگوریتم کنترل نرخ وجود ندارد لذا افراد بنا به نیاز و کاربردشان و محدودیتهای هر کاربرد، کنترل نرخ مخصوص به خود را طراحی میکنند. یک الگوریتم کنترل نرخ میتواند در نواحی مختلف فضای R-D4، بین ناحیه نرخ بیت ثابت و کیفیت ثابت عمل کند. ما الگوریتمهای کنترل نرخ بیت را به سه دسته تقسیم کردیم: الگوریتمهای نرخ بیت ثابت، کیفیت ثابت و نرخ بیت متغیر.ناحیه کار یک الگوریتم کنترل نرخ بیت ثابت، موازی با محور D - یا کیفیت - است. این الگوریتم مناسب برای کاربردهای با تاخیر کم، از قبیل کاربردهای مکالمهای است.

در عمل، نرخ بیت ویدئوی فشرده شده به روش نرخ بیت ثابت تغییرات کمی دارد. در این الگوریتم در کوتاه مدت کنترل شدیدی در سطح اجزاء کوچک ویدئو صورت میگیرد. با استفاده از بافری با اندازه کوچک، میتوان در کوتاه مدت با تغییرات جزئی نرخ بیت، کنترل نرخ بیت را به روش نرخ بیت ثابت انجام داد.یک الگوریتم کنترل نرخ کیفیت ثابت در ناحیهای از R-D که موازی با محور R است عمل میکند. در این الگوریتم حفظ کیفیت ثابت برای ویدئوی فشرده شده، مدنظر است. تغییرات نرخ بیت در این الگوریتم برای ثابت نگه داشتن کیفیت به شدت زیاد است.الگوریتم کنترل نرخ بیت متغیر نیز در ناحیه عملیاتی بین نرخ بیت ثابت و کیفیت ثابت کار میکند.

در این الگوریتم سعی بر این است که نرخ بیت، نسبت به کیفیت ثابت تغییرات کمتر و نسبت به نرخ بیت متغیر، تغییرات بیشتری داشته باشد و همچنین به منظور کاهش تغییرات PSNR5 جهت دستیابی به کیفیت ثابت، تغییرات پارامتر چندی کننده نیز حتی الامکان به حداقل برسد. این الگوریتم، نرخ بیت را در بلند مدت کنترل کرده و مناسب برای برنامههای کاربردی با تاخیر بالا - از قبیل پخش تلویزیونی و جریانسازی بیت - میباشد.تا کنون الگوریتمهای کنترل نرخ بیت زیادی در سطوح مختلف برای کاربردهای ویدئویی با تاخیر بالا ارائه شده که در جدیدترین استاندارد ویدئویی - H.265/HEVC - پیادهسازی شدهاند. الگوریتم کنترل نرخ حوزه λ براساس مدل نرخ بیتBضریب لاگرانژ - λ_R - است و در نرم افزار مدل استاندارد HEVC پیاده سازی شده است. منظور از λ در این الگوریتم شیب منحنی R-D یا همان ضریب لاگرانژ میباشد و رابطه ای قوی بین R و λ برقرار است.

با بهرهگیری از این الگوریتم کنترل نرخ، نرخ بیت هدف نسبتاً دقیقی حاصل میشود .[3] الگوریتم کنترل نرخ [4]، نرخ بیت را با استفاده از تنظیم پارامتر چندی کننده روی تصاویر کنترل میکند. این الگوریتم به دو بخش اصلی تقسیم میشود: در بخش اول با استفاده از کنترل کننده فازی و کنترل کننده کیفیت، پارامتر چندی کننده برای تصاویر نوع P محاسبه میگردد و در بخش دوم، با بهرهگیری از چندین سیگنال بازگشتی از بافر، ویدئوی فشرده شده و ویدئوی فشرده نشده، پارامتر چندی کننده برای تصاویر Intra محاسبه میشود. کنترل کننده فازی [5] با درنظر گرفتن محدودیت بافر و نرخ بیت هدف بلند مدت، نرخ بیت هر تصویر را کنترل میکند.

در کنترل کننده نرخ بیت فازی دیگری، از یک PID-FUZZY استفاده میشود که مزایای کنترل کنندههای PID و سیستمهای فازی را بطور همزمان دارا است. در این الگوریتم کنترل نرخ، برای تعدادی از تصاویر متوالی که با یک الگوی خاص مرتباً تکرار میشوند و گروه تصاویر - GOP6 - نام دارند یک پارامتر چندی کننده پایه محاسبه شده، سپس با توجه به نوع و لایه زمانی هر تصویر، آفست خاصی به پارامتر چندی کننده پایه اضافه میشود .[6] در [7] یک الگوریتم دو گذری برای رمز گذاری محتوای UHDTV7 معرفی شده است. در این الگوریتم، در طول گذر قبل از رمزگذاری، با استفاده از یک رمزگذار سریع، دادههای استفاده شده برای تخصیص نرخ و مقدار اولیه مؤلفه مدل، که در طول گذر دوم استفاده میشود بدست میآید.

در [8] یک الگوریتم کنترل نرخ بیت متغیر دو گذری ارائه شده است. در این الگوریتم با توجه به بودجه نرخ بیت، بیتهای در دسترس به گروه تصاویر، تصویر و واحد کدگذاری - CU - تخصیص داده میشود.اکثر الگوریتمهایی که تا کنون برای استاندارد HEVC ارائه شدهاند یا الگوریتمهای نرخ بیت ثابت میباشند و یا الگوریتمهای نرخ بیت متغیری هستند که نرخ بیت را در سطح تصویر یا گروهی از تصاویر کنترل میکنند. در این الگوریتمها تغییرات پارامتر چندی کننده منجر به نوسانات PSNR و از دست دادن کیفیت ثابت در ویدئوی فشرده شده میشود.با توجه به افزایش چشمگیر استفاده از برنامههای کاربردی با تاخیر بالا و بدلیل عدم ارائه الگوریتم کنترل نرخ مناسب برای کاربردهای نرخ بیت متغیر، الگوریتم کنترل نرخی که ارائه خواهیم داد با در نظر گرفتن محدودیتهایی از قبیل پهنای باندو  بافر مجازی، مناسب برای کاربردهای با تاخیر بالا و نرخ بیت متغیر میباشد.

الگوریتم پیشنهادی، نرخ بیت را در سطح صحنه ویدئو و در دو گذر کنترل میکند. صحنه ویدئو می تواند شامل تعداد زیادی از تصاویر باشد که در آن محتوای تصاویر به هم شباهت زیادی دارند. این الگوریتم، با تبعیت از محدودیت بافر و استفاده از فضای بافر، تغییرات پارامتر چندی کننده برای کنترل نرخ بیت را به حداقل رسانده که منجر به کاهش تغییرات PSNRو دستیابی به ویدئویی با کیفیت ثابت میگردد.این مقاله به شرح ذیل ادامه مییابد. در بخش 2 جزئیات الگوریتم پیشنهادی توضیح داده میشود. در بخش 3 نتایج پیادهسازی الگوریتم پیشنهادی و مقایسه آن با روشهای دیگر ارائه میشودونهایتاً مقاله در بخش 4 نتیجهگیری میشود.

-2 الگوریتم کنترل نرخ بیت پیشنهادی

این الگوریتم، نرخ بیت را در سطح صحنه و در دو گذر کنترل میکند: در گذر اول، ویدئو با بهرهگیری از الگوریتم کنترل نرخ فازی [6]، در سطح گروه تصاویر فشرده شده و در گذر دوم، ابتدا با استفاده از آشکارساز صحنه [9]، صحنههای ویدئو جداسازی میشوند سپس با استفاده از نتایج بدست آمده از فشردهسازی گذر اول و مدلی که در ادامه توضیح داده خواهد شد شاهد کنترل نرخ بیت دقیق، کاهش نوسانات پارامتر چندی کننده و در نتیجه افزایش PSNR و دستیابی به ویدئویی با کیفیت ثابت خواهیم بود.بلوک دیاگرام نشان داده شده در شکل 1 می تواند برای نمایش ارتباط بین اجزاء مختلف در هر دو گذر الگوریتم پیشنهادی استفاده شود. مطابق بلوک دیاگرام، عناصر اصلیشامل فشردهساز، بافر مجازی، و کنترل کننده نرخ بیت میباشد. در ادامه، به شرح این دو گذر خواهیم پرداخت.

ویدئوی فشرده نشده را با استفاده از الگوریتم کنترل نرخ فازی [6]، در سطح گروه تصاویر کد میکنیم . در این الگوریتم به اولین تصویر موجود در هر گروه تصاویر، یک پارامتر چندی
کننده بعنوان پارامتر چندی کننده پایه - -     اختصاص دادهمیشود سپس برای هر تصویر از گروه تصاویر مطابق روش شناخته شده آبشار پارامتر چندی کننده - QP Cascading - ، مقدار چندی کننده به روش زیر محاسبه میشود:
که در این فرمول مقدار چندی کننده تصویر در لایهزمانی T و QP ، یک مقدار آفست منحصر به فرد لایه زمانی میباشد.پس از این که ویدئو را با الگوریتم مذکور کد کردیم نتایج بدست آمده از گذر اول شامل مقدار پارامتر چندی کننده استفاده شده برای هر تصویر و تعداد بیت ناشی از فشردهسازی هر تصویر جمعآوری و برای فشردهسازی در گذر دوم مورد استفاده قرار میگیرند.در گذر دوم بدنبال محاسبه یک مقدار پارامتر چندی کننده مناسب برای فشردهسازی هر صحنه هستیم.در ابتدا با استفاده از آشکارساز صحنه [9]، صحنههای ویدئو جداسازی میشوند. در این آشکارساز اگر میانگین قدرمطلق اختلاف بین دو گروه کوچک از پیکسلهای تصویر فعلی و تصویر قبلی ویدئوی فشرده نشده بیشتر از یک مقدار آستانه باشد بیانگر این است که تغییر صحنه اتفاق افتاده است.

گروه پیکسلها براساس الگوی خاصی انتخاب میشوند. در هر سطر از تصویر، از هر N پیکسل یک پیکسل انتخاب میشود که N عددی فرد در بازه [7,15] میباشد. پس از اینکه صحنه جدید شناسایی شد یک تصویر Intra گنجانده میشود.مقدار جزء صحیح متوسط مقادیر چندی کننده استفاده شده در گذر اول برای هر صحنه میتواند بعنوان یک تخمین اولیه برای گذر دوم در نظر گرفته شود. اگرچه نتایج عملی نشان میدهد این تخمین اولیه میتواند تفاوت فاحشی با مقدار بهینه چندی کننده صحنه داشته باشد. در الگوریتم پیشنهادی مقدار بهینه چندی کننده صحنه به شرح زیر محاسبه میشود.ابتدا مقدار جزء صحیح میانگین پارامترهای چندی کننده پایه برای هر صحنه محاسبه میشود.

سپس برای هر صحنهمقدار چندی کننده بهینه - QP - ، محاسبه میشود. چندی کننده بهینه قید زیر را باید برآورده سازد :که در این رابطه نرخ بیت هدف و نرخ بیت تخمین زده شده برای صحنه میباشد. برای تخمین نرخ بیتصحنه از مدل R-D تجربی حوزه ]3[ λ، به شرح ذیل استفاده میشود. مطابق مدل R-D تجربی حوزه λکه در آن α و β دو پارامتر مدل میباشند. BPP مقدار بیت بر پیکسل تصویر بوده و از رابطه زیر بدست می آید:
که در آنBPP    بیت بر پیکسل تصویر ام، Bf بیت هایناشی از فشردهسازی تصویر ام در گذر اول، و L و W طول و عرض تصویر میباشند. به منظور سادهسازی در الگوریتم پیشنهادی مقدار β ثابت - = −1.6 - در نظر گرفته شده است که عددی در وسط بازه پیشنهادی در مدل حوزه میباشد. با استفاده از نتایج فشردهسازی گذر اول و مدل فوق مقدار α برای هر تصویر محاسبه میشود. با استفاده از پارامترها و مدل فوق بهازای هر مقدار چندی کننده یک مقدار برای نرخ بیت BRcomp به شرح زیر قابل تخمین است.ابتدا به ازای چندی کننده داده شده مقدار به صورت زیر محاسبه میشود:

در متن اصلی مقاله به هم ریختگی وجود ندارد. برای مطالعه بیشتر مقاله آن را خریداری کنید