بخشی از مقاله
خلاصه
با توجه به رشد چشمگیر تجارتهای الکترونیکی به خصوص فروشگاههای الکترونیکی، مالکین و چرخانندگان این مارکتها با توجه به راحتی جمع آوری نظرات مشتریان باعث گریده تا تمایل به آگاهی داشتن از نظرات مشتریان برای هر چه بهتر کردن خدمات خود جهت افزایش سوددهی و جذب بیشتر مشتری داشته باشند. در این گفتار با بررسی نظرات کاربران سایت http://www.mobile.ir که در زمینه معرفی گوشی و تجهیزات موبایل فعال میباشد، را مورد وب کاوی و متن کاوی قرار دادیم . در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. با این تحلیل مشخص می کنیم در ابتدا کدام گوشی بیشتر مورد علاقه کاربران بوده و همچنین نظرات و کلمات پر کاربرد، سری زمانی و فعالترین کاربر در این زمینه را مشخص می کنیم.
کلمات کلیدی: Cloud and Big-data Concepts, IT Strategy, Data Integration Systems Design, Data Analysis, Social-network Analysis
.1مقدمه
بخش قابل توجهی از اطلاعات موجود در فضای وب دادههای متنی می باشد.از آنجا که این دادهها به صورت جریانی بوده علاوه بر سرعت بالا در تولید دارای پیچیدگی از لحاظ ساختاری ، نوع نگارش ، دستور و املا می باشند که عملیاتهای متن کاوی و تحلیل این گونه متون را برای نرم افزارهای دادهکاوی دشوار میکند.برای استفاده از این دادههای غیرساختار یافته باید از روشهای نوینی چون وبکاوی و یا متنکاوی استفاده کرد تا الگوهایی برای محاسبات مورد نیاز تهیه کنیم و همچنین برای ذخیره و آنالیز این گونه دادهها می توانیم به جای ذخیره دستی از کراولرها استفاده کنیم تا علاوه بر سرعت از معایبی چون خطای انسانی جلوگیری کنیم. روشهای متن کاوی شامل؛پردازش مستندات و استخراج دانش از متن میباشد.
در فاز اول خروجی به دو صورت: - 1مبتنی بر سند 2 - مبتنی بر مفهوم است. در فرمت نمایش مبتنی بر سند آنچه که مهم است، نحوه نمایش بهتر برای مستندات است. در فرمت مبتنی بر مفهوم، مفاهیم و معانی موجود در سند و نیز ارتباط میان آنها و هر نوع اطلاعات مفهومی دیگر که قابل استخراج،از متن استخراج میشود.در فاز دوم گروه بندی، طبقه بندی و تجسم سازی و نظایر آن بر روی مستندات اعمال میگردد. هدف این نوشتار معرفی مدلی است که با استفاده از نرمافزار رپیدماینر - Rapid Mainer - با ذخیره صفحات وب سایت معرفی موبایل از طریق یک کراولر دیدگاهها و نظرات کاربران در رابطه با یک محصول محبوب را مورد پردازش قرار میدهیم.
پیشینه
میخواهیم تئوریهای فرایندی را نشان دهیم که در آن صفحاتی از اینترنت را گرفته و مورد وب کاوی قرار دهیم و از آنها پیش بینی هایی به عمل آوریم.
-1-1 متن کاوی
این حوزه تمام فعالیتهایی که به دنبال کسب دانش از متن هستند را شامل میگردد. در مراحل اولیه ضروریست اسناد پیش پردازش شوند و اطلاعات در یک ساختار دادهای مناسب برای پردازشهای بعدی ذخیره شوند. در این زمینه چندین روش وجود دارد که سعی در بهره گیری از ساختار نحوی و معنایی متن دارند. بیشتر روشها اسناد را به صورت مجموعهای از کلمات نمایش میدهند. روشهای متن کاوی الگوریتمهای کاوش را روی برچسبهای نسبت داده شده به هر سند اعمال میکنند. این برچسبها ممکن است کلمات کلیدی استخراج شده از سند یا فق لیستی از کلمات در سند مورد نظر باشند. برای نشان دادن اهمیت یک کلمه در سند معمولا از نمایش بردار استفاده می شود. برای هر کلمه یک مقدار اهمیت عددی ذخیره میگردد. روشهای اصلی و مهم موجود که بر اساس این ایده هستند عباراتند از : مدل فضای بردار، مدل احتمالی و مدل منطقی.
با توجه به این که در این نوشتار از فضای مدل بردار استفاده گردیده این روش را توضیح می دهیم.
-1-1-1 ابزار تکنولوژی جدید، متن کاوی - وندربیلت -
متن کاوی و پیشرفت در مدل سازیِ موضوعی و تجزیه و تحلیل احساسات به ما اجازه خواهد داد تا الگوها و روندهایی که مجبور به صرف زمان طولانی برای جستجو و مطالعه در هر مقاله بودیم، با کمترین زمان ممکن به بهترین نتیجه دست یابیم. مطالعه موردی و سنتی در کمک به محققان در تکمیل و شناسایی مقالات خاص با وجود مفید بودن از نظر زمان به صرفه نیست . در حالی که متن کاوی متمرکز بر مسائل زیست محیطی، احساسات، تجارت و ... است که پایگاه داده ما را تولید خواهد کرد که یک طیف گسترده ای از موضوعات در طول چند دهه گذشته را پوشش داده و به احتمال زیاد در تمامی رشته ها کاربردی می باشد. >1@
-2-1-1 مدل سازی احساساتِ موضوعی در متن کاوی - چانگوا لی -
در سال های اخیر با رشد سریع پژوهش ها در پردازش زبان، از آنجا که در متن احساسات و نظرات متفاوت نهفته است طبیعی است که به دنبال درک بهتر متن باشیم. در میان اکثر کارهای قبلی در تجزیه و تحلیل احساسات چند مسئله قابل توجه وجود دارد: طبقه بندی آموزشی، وابسته به دامنه است که برچسب مورد نیاز برای آموزش سیستم می تواند مشکل باشد و برای به دست آوردن متن در دنیای واقعی نیز همین مشکلات موجود است و وابستگی بین احساسات و موضوعات مورد توجه قرار گرفته است. در پاسخ به این محدودیت ها، یک خانواده جدید از مدل احتمالاتی موضوعی - مدل احساسات موضوعی مشترک - توسعه یافته اند، که قادر به تشخیص احساسات در ارتباط با موضوع از متن بدون استفاده از هر گونه اطلاعات با استفاده از برچسبِ آموزشی هستند. >2@
-2-1 تحلیل گفتمانی در متون تبلیغات انتخاباتی
بیان مستقیم از جانب یک نویسنده به ندرت نیاز به تجزبه و تحلیل کلامی دارد.آنچه حائز اهمیت است این است که نویسنده چگونه بدون به کار گیری اشارات مستقیم یا با به کارگیری شیوههای خاص موفق به القاء و ارائه آرا و نظرات خویش در زمینهای بخصوص میگردد. این کار نیاز به تجربه و توانائی بهرهگیری مؤثر و کارآمد نویسنده از ابزار موجود در زبان دارد. علم تحلیل کلام در استخراج راهبردهای بیانی نویسنده در ابعاد گوناگونِ اجتماعی،فردی،سیاسی و... مورد استفاده قرار میگیرد. >3@
-3-1 داده کاوی در هوش تجاری
در دنیای رقابتی امروز داده ها و اطلاعات بعنوان ثروت سازمانی محسوب گشته و همواره شرکتها و سازمان های بزرگ و موفق دنیا به دنبال استفاده مناسب تر و تجاری تر از این منابع مجازی می باشند. از جمله شیوه های علمی و قدرتمند استفاده از داده های موجود، داده کاوی منطبق بر هوش تجاری می باشد. امروزه داده کاوی بطور فزاینده در هوش تجاری، حمایت تصمیم - تصمیم یار - خ مشی برای مدیریت دانش، تجارت الکترونیک، راه های خلاقانه حمایت مشتری را مورد استفاده قرار می دهد. >4@
-4-1 بازاریابی الکترونیکی بر اساس وب کاوی برای فروشگاه های الکترونیکی
بازاریابی الکترونیکی باید به مصرف کنندگان در خرید کمک کند. دارندگان فروشگاه های الکترونیکی باید با دانستن اینکه مشتری چه زمان و از چه لینکی و کدام کالاها به فروشگاه اینترنتی وارد شده و چه چیزهایی خرید کرده است "محل سفر و نوع آن" از سایت را بداند. این تجزیه و تحلیل به دست آمده است که بازدید مشتری از یک فروشگاه الکترونیکی رد پای دیجیتال است که می تواند مورد استفاده قرار گیرد .این داده ها را می توان برای داده کاوی استفاده کرد و در درک بهتر بازاریابیِ الکترونیکی و فروش،ش روشی نوین می باشد. >5@