بخشی از مقاله
خلاصه
همه روزه مقادیر عظیمی از دادههای ویدیویی در سرتاسر جهان تولید میشود و پردازش کردن این دادهها، نیازمند منابع فراوانی همچون زمان، نیروی انسانی و سخت افزاری قدرتمند میباشد. در این بین تکنیک خلاصهسازی ویدیو نقش مهمی را ایفا میکند. این تکنیک به ذخیرهسازی موثر، جستجوگری سریع وبازیابی مجموعه بزرگی از دادههای ویدیویی بدون از دست دادن جنبههای مهم آن، کمک میکند. در این مقاله، ما به بررسی روشهای رایج موجود در خلاصهسازی ویدیو پرداخته و توصیف دقیقی از آنها را به همراه مزایا و معایبشان بیان خواهیم نمود. مزیت این مقاله در این است که یک محقق میتواند به سرعت با روشهای خلاصهسازی ویدیو آشنا شده و روشی را مطابق نیازش انتخاب کند.
کلمات کلیدی: خلاصهسازی ویدیو، بازیابی ویدیو، آشکارسازی شات
1. مقدمه
در قرن اخیر تکنولوژی ویدیوی دیجیتال با سرعت زیادی در حال رشد است و به سبب پیشرفت تکنولوژی، ذخیره مقدار عظیم داده ویدیویی آسانتر شده است. بخش عمده محتوای ویدیوها شامل اخبار، فیلم، ورزش، اسناد و... میشود. به هر حال نیاز به جستجوی اطلاعات مهم در ویدیوها هم افزایش یافته است. بطور مثال دوربینهای حفاظتی بطور 24 ساعته در حال تولید اطلاعات ویدیویی میباشند که جستجو در این اطلاعات کار زمانبر و طاقت فرسایی میباشد. برای حل این مشکل راه حلهای زیادی بیان شده است، در این بین خلاصهسازی ویدیو نقش مهمی را در این خصوص ایفا کرده و به کاربر برای بازیابی اطلاعات در ویدیوکمک فراوان میکند. هدف ما در این مقاله فراهم کردن مروری کلی، خلاصهشده و طبقهبندی شده از روشهای خلاصهسازی ویدیو، همراه با مزایا و معایبشان میباشد. در شکل((1 یک طبقهبندی کلی از روشهای خلاصهسازی قرار داده شده است که در ادامه به بررسی هر یک میپردازیم.
The 9th Symposium on Advances in Science and Technology (9thSASTech), Mashhad, Iran . 9thSASTech.khi.ac.ir
شکل:1 طبقه بندی روشهای خلاصهسازی ویدیو
به دلیل جامع بودن برخی تکنیکهای خلاصهسازی و ادغام روشهای دیگر در خود، ممکن است برخی طبقهها در شکل((1 زیر مجموعه طبقات دیگر قرار گیرند. بطور مثال در اکثر روشها برای دستیابی به محتوای درون ویدیو ابتدا ویژگیهای آن استخراج میشود، پس میتوان در نوعی دیگر از طبقهبندی روش مبتنی بر ویژگی را زیر مجموعه همه طبقات نیز قرار داد.
2. روشهای خلاصهسازی ویدیو
خلاصهسازی ویدیو به شکل های مختلفی ساخته میشود. 2 راه رایج برای خلاصهسازی ویدیو روش استاتیکی1 و دینامیکی2 میباشد.[1] خلاصه استاتیک ویدیو با فریم کلیدی سروکار دارد. فریمهای کلیدی تصاویر ثابتی از ویدیو هستند که مهمترین محتوای آن را شامل شده و معرف آن میباشند.[2] خلاصه دینامیک ویدیو شامل دنبالهای از شاتهای3 کوچک، که به ترتیب زمان قرار داده شده است، میشود.
.1-2 روش دینامیکی
بطور معمول در خلاصهسازی دینامیکی ابتدا مرزهای شات ویدیو با استفاده از روشهایی همچون مقایسه توأم [3] و با استفاده از ویژگی رنگ تصویر و یا تغییر نرخ لبههای تصویر[4] و به کارگیری آستانههای وفقی و یا روشهای دیگر شناسایی شده و با حذف شاتهای اضافی، ویدیو به قسمتهای معنیدار شات تقسیم میشود. سپس با انتخاب قسمتهای چند ثانیهای از هر شات و حذف شاتهای یکسان خلاصه دینامیک ویدیو ساخته میشود. بطور مثال در روش >5] Dumont ابتدا ویدیو با استفاده از هیستوگرام رنگ در فضای HSV و روش ارائه شده در>6@ به قسمتهای شات تقسیم شده و سپس شاتهای اضافی با استفاده از تشابه هیستوگرامشان حذف شده و شاتهای غیر تکرار با خوشه بندی مرتبهای4 به عنوان خلاصه ویدیو انتخاب میشوند.مزیت روش دینامیکی این هست که محتوای دینامیکی ویدیو را حفظ کرده و شامل محتوای حرکتی و صوتی ویدیو میشود. با این حال استخراج فریم کلیدی انعطاف پذیری بیشتری برای نشان دادن محتوای ویدیو دارد و میتواند به عنوان پیش پردازشهای گوناگونی استفاده شود.[7]
1 Static 2 Dynamic 3 Shot
4 Hierarchical clustering
The 9th Symposium on Advances in Science and Technology (9thSASTech), Mashhad, Iran . 9thSASTech.khi.ac.ir
.2-2 روش استاتیکی
بطور معمول استخراج فریم کلیدی به 2 صورت رایج مبتنی بر متن و مبتنی بر محتوا وجود دارد. در نوع اول، که در آن متن همراه ویدیو1 نیز گرفته میشود، کلمه و یا جملهای دلخواه انتخاب شده، سپس فریمی که متناسب با آن متن است انتخاب میشود(شکل(.((2 بطور مثال در روش [8] Refaey برای تولید خلاصه ویدیوهای ورزشی و نمایش رخدادهای مهم، از متن موجود در صفحات وب برای آن ویدیو استفاده کرده است. در این روش با استفاده از تکنیک درخت پارس2 کلمه مورد نظر همراه با زمان رخداد آن استخراج گردیده و با نمایش تصاویر مرتبط با آن ویدیو، خلاصه مورد نظر ساخته میشود. این روش پرهزینه و زمانبر میباشد.
نوع دوم استخراج فریم کلیدی که رایجتر میباشد، توسط پردازشگرهایی بر اساس ویژگیهای استخراج شده از ویدیو صورت میگیرد. این روش ارزانتر وسریعتر از روش قبل است ولی به دلیل تفاوت ادراک انسان و ماشین زیاد قابل اطمینان نیست.[9]