کارشناسی ارشد-دانلود دانلود پایان نامه وب¬ کاوی در صنعت(گرایش جزا عمومی خصوصی)


این روش از قدیمی ترین روش های ریاضی وار گروه بندی داده ها می باشد که برای اولین بار در سال 1936 توسط فیشر استفاده گردید. روش کار بدین صورت است که داده ها را مانند داده های چند بعدی بررسی کرده و بین داده ها مرزهایی ایجاد می کنند (برای داده ها دو بعدی خط جدا کننده، برای داده های سه بعدی سطح جدا کننده و ..) که این مرزها مشخص کننده کلاس های مختلف می باشند و بعد برای مشخص کردن کلاس مربوط به داده های جدید فقط باید محل قرارگیری آن را مشخص کنیم.

این روش از ساده ترین و قابل رشدترین روش های کلاس بندی می باشد که در گذشته بسیار استفاده می شد.

این روش به سه دلیل محبوبیت خود را از دست داد :اول اینکه این روش فرض می کند همه متغیرهای پیش بینی به صورت نرمال توزیع شده اند که در بسیاری از موارد صحت ندارد . دوم اینکه داده هایی که به صورت عددی نمی باشند مثل رنگها در این روش قابل استفاده نمی باشند. سوم اینکه در این روش فرض می شود که مرزهای جدا کننده داده ها به صورت اشکال هندسی خطی مثل خط یا سطح می باشند حال اینکه این فرض همیشه صحت ندارد.

نسخه های اخیر تحلیل تفکیکی بعضی از این مشکلات را رفع کرده اند به این طریق اجازه می دهند مرزهای جدا کننده بیشتر از درجه 2 نیز باشند که باعث بهبود کارایی و حساسیت در بسیاری از موارد می گردد.

2-10-8 مدل افزودنی کلی (GAM)

این روش ها در واقع بسطی بر روش های رگرسیون خطی و رگرسیون منطقی می باشند. به این دلیل به این روش افزودنی می گویند که فرض می کنیم می توانیم مدل را به صورت مجموع چند تابع غیر خطی (هر تابع برای یک متغیر پیش بینی کننده) بنویسیم. GAM می تواند هم به منظور رگرسیون و هم به منظور کلاس بندی داده ها استفاده گردد. این ویژگی غیر خطی بودن توابع باعث می شود که این روش نسبت به روشهای رگرسیون خطی بهتر باشد.

2-10-9 Boosting

در این روش ها مبنی کار این است که الگوریتم پیش بینی را چندین بار و هر بار با داده های آموزشی متفاوت (که با توجه به اجرای قبلی انتخاب می شوند) اجرا کنیم و در نهایت آن جوابی که بیشتر تکرار شده را انتخاب کنیم. این روش اگر چه وقت گیر است ولی جواب های آن مطمئن تر خواهند بود. این روش اولین بار در سال 1996 استفاده شد و در این روزها با توجه به افزایش قدرت محاسباتی کامپیوترها بر مقبولیت آن افزوده گشته است.

2-11 سلسله ­مراتب انتخاب­ها

هدف داده­کاوی تولید دانش جدیدی است که کاربر بتواند از آن استفاده کند. این هدف با ساخت مدلی از دنیای واقع براساس داده­های جمع­آوری شده از منابع متفاوت بدست می­آید. نتیجه ساخت این مدل توصیفی از الگوها و روابط داده­هاست که می­توان آنرا برای پیش­بینی استفاده کرد. سلسه انتخاب­هایی که قبل از آغاز باید انجام شود به این شرح است:

  • هدف تجاری
  • نوع پیش­بینی
  • نوع مدل
  • الگوریتم
  • محصول

در بالاترین سطح هدف تجاری قرار دارد: هف نهایی از کاوش داده­ها چیست؟ برای مثال، جستجوی الگوها در داده­ها ممکن است برای حفظ مشتری­های خوب باشد، که ممکن است مدلی برای سودبخشی مشتری­ها و مدل دومی برای شناسایی مشتری­هایی که ممکن از دست دهیم می­سازیم. اطلاع از اهداف و نیازهای سازمان ما را در فرموله کردن هدف سازمان یاری می­رساند.

مرحله بعدی تصمیم­گیری درباره نوع پیش­بینی مناسب است: دسته بندی ، پیش­بینی اینکه یک مورد در کدام گروه یا رده قرار می­گیرد یا رگرسیون، پیش­بینی اینکه یک متغیر عددی چه مقداری خواهد داشت.

مرحله بعدی انتخاب نوع مدل است: یک شبکه عصبی برای انجام رگرسیون ،و یک درخت تصمیم برای دسته بندی. همچنین روشهای مرسوم آماری برای مانند logistic رگرسیون، discriminant analysis، و یا مدلهای خطی عمومی وجود دارد.

الگوریتم­های بسیاری برای ساخت مدلها وجود دارد. می­توان یک شبکه عصبی را با backpropagation، یا توابع radial bias ساخت. برای درخت تصمیم، می­توان از میان CART، C5.0، Quest، و یا CHAID انتخاب کرد.

هنگام انتخاب یک محصول داده­کاوی، باید آگاه بود که معمولا پیاده­سازیهای متفاوتی از یک الگوریتم دارند. این تفاوت­های پیاده­سازی می­تواند بر ویژگیهای عملیاتی مانند استفاده از حافظه و ذخیره داده و همچنین ویژگیهای کارایی مانند سرعت و دقت اثر گذارند.

در مدلهای پیشگویانه، مقادیر یا رده­هایی که ما پیش­بینی می­کنیم متغیرهای پاسخ، وابسته، یا هدف نامیده می­شوند. مقادیری که برای پیش­بینی استفاده می­شوند متغیرهای مستقل یا پیش­بینی­کننده نامیده می­شوند.

مدلهای پیشگویانه با استفاده از داده­هایی که مقادیر متغیرهای پاسخ برای آنها از قبل دانسته شده است ساخته یا آموزش داده می­شوند. این نحوه آموزش supervised learning نامیده می­شود، زیرا که مقادیر محاسبه شده یا تخمین­زده شده با نتایج معلومی مقایسه می­شوند.( در مقابل، تکنیک­های توصیفی مانند clustering، unsupervised learning نامیده می­شوند زیرا که هیچ نتیجه از پیش معلومی برای راهنمایی الگوریتم وجود ندارد.)

 2-12داده کاوی و مدیریت بهینه وب سایت ها

هر سایت اینترنتی بر اساس حجم فعالیت خود برای نگهداری به افراد مختلفی که آشنا به امور فنی و اجرایی باشند نیاز دارد. مدیر سایت به عنوان شخصی که تنظیم کننده و هماهنگ کننده تمام این افراد است باید برای هر کدام از بخش‌های سایت از قبیل گرافیک، محتوا، امور فنی، بازاریابی و... برنامه‌های مختلفی را تهیه و برای اجرا در اختیار همکاران خود قرار دهد. این برنامه ها می توانند شامل برنامه های روزانه، هفتگی و ماهانه باشند. تمامی این برنامه ها در راستای یک هدف کلی و نهایی به انجام می رسند و آن هم بالا رفتن کارایی اقتصادی سایت است.

سایت ها زمانی می توانند خود را در سطح اقتصادی اطمینان بخشی قرار دهند که از بازدیدکنندگان و کاربران و قابل توجهی برخوردار باشند. برای این کار مدیر سایت سعی می کند مطالعه و تحقیق گسترده ای بر روی عوامل و ابزارهای افزایش دهنده تعداد کاربران سایت انجام دهد و از این طریق در واقع به مطالعه شرایط و موقعیت خود در بازار مجازی اینترنت می پردازد. به عنوان مثال وی در مورد رنگ های به کار رفته در سایت، لوگو و سایر قطعات گرافیکی سایت، متن های به کار رفته و بسیاری دیگر از مسائل مرتبط با سایت به بررسی و مطالعه می پردازد.

یکی از روش ها و راهکارهایی که کمک بسیار زیادی برای بهتر شدن فرآیند مدیریت وب سایت ها می کند استفاده از گزارش ها و تحلیل های آماری است. مدیران سایت ها و مدیران بازایابی شرکت ها با استفاده از گزارش های به دست آمده از فعالیت سایت اینترنتی می‌توانند شناخت خوبی از موقعیت و تاثیر فعالیت های خود پیدا کنند و از این طریق نقاط ضعف و قوت سایت را به راحتی شناسایی و برای حل و تقویت آنها تغییرات لازم را  در سایت اعمال نمایند و به برنامه های آینده و حتی استراتژی های سایت جهت ببخشند.

2-13داده‌کاوی و مدیریت دانش

اگر چه دانش به طور انحصاری محصول فناوری اطلاعات نیست، ولی فناوری اطلاعات به طور لاینفکی در ایجاد دانش و فرآیند مدیریت دانش از سال های اول مشارکت داشته است. امروزه مدیریت دانش از مسئولیت های فناوری اطلاعات به شمار می‌رود. زیرا در جمع‌آوری، تبدیل دانش و انتقال داده‌ها، اطلاعات و دانش نقش کلیدی دارد.

از منظر مدیریت دانش‌، هدف داده‌کاوی، کشف دانش سازمانی پنهان در اطلاعات خام است. اینگونه نیست که هر بینش حاصل از داده‌کاوی دانش می‌سازد، بلکه در عوض بسیاری از نتایج به دست آمده، اطلاعات مدیریت، یا هوش سازمانی است. مثلاً در سازمان‌های تجاری، دانش با ارزش

مورد مشتری، محصول و بازار را می‌توان از طریق داده‌کاوی به دست آورد. داده‌کاوی ابزار مفیدی برای مدیران دانش است که کشف را با تحلیل تلفیق می‌کنند. تلفیقی که اغلب منجر به ایجاد دانش می‌شود.

فصل سوم
وب کاوی

 

 

 

 

 

 

 

 

 

 

3-1 تعریف وب کاوی

وب کاوی کاربردی از تکنیکهای داده کاوی است که به صورت خودکار اطلاعات را از مستندات وب و سرویسها استخراج و کشف می کند. وب کاوی اغلب به بازیابی و استخراج اطلاعات وابسته است، در حالیکه کشف اطلاعات یا وب کاوی بازیابی و استخراج اطلاعات نیست. هسته اصلی موتورهای جستجو از  معماری سیستم های بازیابی اطلاعات سرچشمه می گیرد. ماهیت پویای اطلاعات در شبکه وب باعث ایجاد تغییرات اساسی در ساختار اولیه در موتورهای جستجو شده است. در سیستم های بازیابی اطلاعات، اسناد و مدارک توسط اشخاص جمع آوری می شدند و در اختیار سیستم قرار می گرفتند، در حالی که در موتورهای جستجو وظیفه جمع آوری اطلاعات به عهده خود موتور جستجو است.

علاوه بر آن به علت تغییرات صفحات وب، موتور جستجو وظیفه به روزرسانی اطلاعات جمع آوری شده را نیز خواهد داشت. یکی از مهمترین مسائل در طراحی موتورهای جستجو مساله کارائی و بازده بالای موتور جستجو است. حجم بالای اطلاعات موجود در شبکه وب و تغییرات سریع اطلاعات در این شبکه (از قبیل اضافه شدن صفحات جدید، حذف شدن برخی از صفحات و تغیر محتویات صفحات) حساسیت این امر را بسیار زیاد می کند. به عنوان مثال سرعت جمع آوری و سازماندهی اسناد در پایگاه دانش موتور جستجو، باید بیشتر از نرخ تغییرات شبکه وب باشد. دراین مقاله به بررسی ساختار وب کاویپرداخته می شود.

3-2 مراحل وب کاوی

وب کاوی شامل چهار مرحله اصلی می باشد:

  1. پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر می باشد.
  2. انتخاب اطلاعات و پیش پردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیش پردازش می شوند.
  3. تعمیم[1]: در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف می شود.
  4. تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی[2] و تفسیر می شوند.

در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه های الکترونیکی، گروه های خبری، اسناد HTML، پایگاه داده های متنی بازیابی می شوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرآیند تبدیل داده های بازیابی شده در مرحله قبل می باشد. این پیش پردازش می تواند کاهش کلمات به ریشه آنها[3]، حذف کلمات زائد[4]، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده ها به قالب رابطه اییا منطق مرتبه اول باشد. در مرحله سوم از تکنیک های داده کاوی و یادگیری ماشین برای تعمیم استفاده می شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرآیند استخراج اطلاعات و دانش از وب ایفا می کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.

به این ترتیب وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. این فرآیند به طور ضمنی شامل فرآیند کشف دانش در پایگاه داده ها(KDD[5]) نیز می شود. در واقع وب کاوی گونه توسعه یافته KDD است که بر روی داده های وب عمل می کند.

3-3 وب کاوی و زمینه های تحقیقاتی مرتبط

وب کاوی با زمینه های مختلف تحقیقاتی علوم کامپیوتر همچون داده کاوی، پایگاه داده، بازیابی اطلاعات، هوش مصنوعی، یادگیری ماشین، پردازش زبان طبیعی، استخراج اطلاعات، انبار داده ها[6]، طراحی واسط کاربر در ارتباط تنگاتنگ است.

در این بخش ارتباط این زمینه تحقیقاتی با برخی از زمینه های مرتبط بررسی می شود.

متن کامل در سایت امید فایل 

3-3-1 وب کاوی و داده کاوی

وب کاوی و داده کاوی ارتباط بسیار نزدیکی با یکدیگر دارند. داده کاوی فرآیند ارائه پرس­وجوها و استخراج الگوها و اطلاعات مفید و ناشناخته از داده هایی است که معمولا در پایگاه داده ها ذخیره شده اند. در واقع بسیاری از تکنیک های داده کاوی قابل استفاده در وب کاوی هستند. اما حوزه وب کاوی وسیع تر از داده کاوی است و این دو زمینه تحقیقاتی در جنبه های مختلفی از یکدیگر متفاوتند که برخی از آنها عبارتند از:

  • در داده کاوی، داده ها ساخت یافته هستند و معمولا در پایگاه داده ها وجود دارند. اما در وب،داده ها عموما غیر ساخت یافته هستند.
  • جمع آوری و مدیریت داده ها در وب دشوار است.

[1] Generalization

[2] Validation

[3] Stemming

[4] Stop Words

[5] Knowledge Discovery in Data Base

[6] Data Warehouse

دانلود متن کامل این پایان نامه :داده کاوی در صنعت

منبع : سایت تخصصی دانلود پایان نامه

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *