موسسه آموزش عالی زاگرس
مدیریت تحصیلات تکمیلی
پایان نامه برای دریافت درجه کارشناسی ارشد در رشته کامپیوتر (M.Sc)
گرایش نرمافزار
عنوان:
پیش بینی و تشخیص کنتورهای خراب با استفاده از طراحی یک روش ترکیبی از شبکه عصبی و درخت تصمیم برای کاوش دادهها (مورد کاربردی: شرکت گاز استان کرمانشاه)
استاد راهنما:
دکتر فرهاد مردوخی
استاد مشاور:
دکتر محمد کاظمی فرد
بهار 1393
برای رعایت حریم خصوصی نام نگارنده پایان نامه درج نمی شود
(در فایل دانلودی نام نویسنده موجود است)
تکه هایی از متن پایان نامه به عنوان نمونه :
(ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است)
چکیده
داده كاوی تلاشی سیستمی برای استخراج دانش از انبوه دادههای موجود است. داده كاوی به كمك مجموعهای از روشهای آماری و مدلسازی، میتواند الگوها و روابط پنهان موجود در پایگاههای داده را تشخیص دهد. با توجه به اینکه هر 7 سال یکبار کنتورهای شرکت ملی گاز بایستی از لحاظ سلامت کنترل شوند و این پروژه بدلیل حضور نیروی انسانی در محل و تست آزمایش کنتور هم از لحاظ زمانی و هم مالی بسیار پرهزینه میباشد. در این پژوهش با اهداف کاربردی، سعی بر آن شده است که با ارائه یک روش ترکیبی از شبکه عصبی و درخت تصمیم، فرآیند داده کاوی را با هدف تشخیص کنتورهای خراب از پایگاه داده در شرکت ملی گاز اجرا و هزینههای این پروژه را بطور چشم گیری کاهش دهد. بطور کلی پروژه حاظر سعی در تشخیص کنتورهای با احتمال بالای خرابی از پایگاه داده شرکت ملی گاز را دارد. در طی فرآیند تحقیق، شبکه عصبی و درخت تصمیم ابتدا بصورت جداگانه هر روش تست و اجرا شدهاند. سپس به بررسی ترکیبهای مختلف از این روشها پرداخته شده که نتیجه حاصل شده حاکی از این است که با ترکیب شبکه عصبی و درخت تصمیم گیری احتمال پیشبینی کنتور خراب به 93.43% (در مقایسه با مقادیر واقعی) است، بنابراین مقایسه بین روش های مورد مطالعه در این پژوهش نشان داد که روش ترکیب الگوریتم ها دقت بیشتر، احتمال پیش بینی بالاتری داشته است.
کلمات کلیدی: داده کاوی، درخت تصمیم گیری، شبکه عصبی، ترکیب روشها، نرم افزار Rapid miner
.
فهرست مطالب
عنوان صفحه
فصل اول: مقدمه
1-1 بیان مسأله. 16
1-2 اهمیت و ضرورت تحقیق.. 17
1-3 جنبه نوآوری تحقیق.. 17
1-4 اهداف تحقیق.. 19
1-5 سوالات پروژه. 19
1-6 فرضیهها 20
1-7 راهکار ارائه شده. 20
1-8 ساختار پایاننامه. 24
فصل دوم: مروری بر ادبیات و پیشینه تحقیق
2-1 داده کاوی چیست؟. 49
2-2 تعاریف متنوعی از داده کاوی.. 50
2-3 آیا داده کاوی سودمند است؟. 51
2-4 آمار و داده کاوی.. 52
2-5 پیچیدگی و هزینه زمانی.. 54
2-6 محرمانگی دادهها 54
2-7 محدودیتهای داده كاوی.. 55
2-8 مراحل داده کاوی.. 55
2-9 وظایف و تكنیك های داده كاوی.. 56
2-9-1 کلاسبندی. 56
2-9-2 تخمین. 57
2-9-3 پیشبینی. 57
2-9-4 قواعد وابستگی یا گروهبندی پیوستگیها 57
2-9-5 خوشهبندی. 57
2-9-6 نمایهسازی توصیفی. 58
2-10 معماری سیستم مبتنی بر داده كاوی.. 58
2-11 روشهای داده كاوی.. 59
2-12 درخت تصمیمگیری.. 59
2-13 نقاط قوت درخت تصمیمگیری.. 61
2-14 معایب درختان تصمیم. 61
2-15 آنتروپی.. 62
2-16 هرس درخت تصمیم تولیدشده. 64
2-17 شبکه عصبی مصنوعی.. 65
2-18 ماتریس تداخل.. 69
2-19 واسط K-Fold Cross Validation.. 72
2-20 قوانین انجمنی.. 74
2-21 مرور ادبیات و سوابق مربوطه. 75
2-22 خلاصه فصل.. 76
فصل سوم فرایند داده کاوی، معرفی و ارزیابی الگوریتم ها
3-1 معرفی نرم افزار Rapid Miner 5: 61
3-2 واسط کاربری Rapid Miner 5. 61
3-3 نحوه کار با Rapid Miner 5. 62
3-3-1 انبارهها 62
3-3-2 عملگرها 63
3-3-3 تب پردازش.. 64
3-3-4 تب پارامترها 64
3-3-5 تب مشکلات.. 64
3-3-6 تب کمک.. 65
3-3-7 تب توضیحات و تب xml. 65
3-4 مقدمه. 66
3-5 متدولوژی CRISP-DM… 66
3-6 شروع داده کاوی.. 67
3-6-1 درک کسب و کار 67
3-6-2 درک دادهها 67
3-6-3 آماده سازی دادهها 68
3-6-3-1 تولید دادههای آموزشی. 69
3-6-3-2 تولید دادههای تست و ارزیابی. 69
3-6-4 ساخت مدل. 70
3-6-4-1 افزودن انبارهای داده به نرم افزار 70
3-6-4-2 درخت تصمیم. 71
3-6-4-3 اعمال مدل درخت تصمیم و تست و ارزیابی کار 75
3-6-4-4 شبکه عصبی. 79
3-6-4-5 روشهای ترکیبی. 81
3-6-5 نتیجه گیری. 82
فصل چهارم: نتیجهگیری و راهکار آینده
4-1 نتیجه گیری.. 84
4-2 راهکار آینده. 84
واژهنامه فارسی به انگلیسی.. 85
فهرست شکلها
شکل 1- مدل فرآیند CRISP-DM برای کاربردهای داده کاوی]9[ 21
شکل (2-1): معماری سیستم مبتنی بر داده كاوی [42]. 59
شکل (2-2): تغییر میزان آنتروپی را برای مجموعهای با دو کلاس… 63
شکل (2-3): توابع نرمال سازی [40] 67
نمودار(2-1): تقریب خطی.. 73
شکل(3-1): صفحه نخست نرم افزار Rapid Miner 5. 62
شکل 3-2: خروجی شیها 63
شکل 3-3: خروجی قسمت مدل (شبکه عصبی) 63
شکل 3-4: خروجی قسمت اطلاعات.. 64
شکل (4-1): متدولوژی CRISP-DM… 67
شکل (4-2): نحوه افزودن فایل دادهای به برنامه. 70
شکل (4-3): نحوه انتخاب نوع سطر. 71
شکل(4-4): آدرس عملگر درخت تصمیم. 71
شکل(4-5): آدرس عملگر Set Role. 72
شکل(4-6): آدرس عملگر Select Attribute. 72
شکل(4-7): آدرس عملگر Discretize by Frequency. 72
شکل(4-8): نحوه اتصال عملگرها 73
شکل(4-9): درخت حاصل از دادههای آموزشی با تابع هدف نسبت بهره اطلاعاتی.. 74
شکل(4-10): درخت حاصل از دادههای آموزشی با تابع هدف آنتروپی.. 75
شکل (4-11): درخت حاصل از دادههای آموزشی با تابع هدف پراکندگی جمعیت(جینی) 75
شکل(4-12): آدرس عملگر Apply model. 76
شکل(4-13): اتصالات تب پردازش در مرحله اعمال مدل. 76
نمودار (4-1): پیشبینی حاصل از الگوهای درخت تصمیم با تابع هدف نسبت بهره اطلاعاتی.. 77
نمودار(4-2): پیشبینی حاصل از الگوهای درخت تصمیم با تابع هدف آنتروپی.. 77
نمودار(4-3): پیشبینی حاصل از الگوهای درخت تصمیم با تابع هدف پراکندگی جمعیت(جینی) 78
شکل (4-15): اتصالات عملگرها جهت تشکیل مدل شبکه عصبی.. 79
شکل(4-16): ساختار شبکه عصبی.. 80
نمودار (4-4): نتیجه تشخیص شبکه عصبی.. 80
نمودار(4-6): نتایج حاصل از اجرای شبکه عصبی بر دادههای خرابی پیشبینی شده توسط درخت تصمیم 82
فهرست جداول
جدول (2-1): مقایسه آنالیز آماری و داده کاوی ………………………………………………………………….. 53
جدول (2-2) کلاس های پیش بینی . ………………………………………………………………………………69
جدول (2-3): ماتریس تداخل…………………………………………………………………………………………… 70
جدول(2-4): مجموعه اعتبار سنجی…………………………………………………………………………………… 74
جدول) 3-1(: دادههای مورد استفاده در تشخیص کنتورخراب……………………………………………….. 68
جدول (4-3): نتایج حاصل از ارزیابی نتایج درختهای تصمیم ایجاد شده………………………………… 78
جدول (4-3): مقادیر پارامترهای عملگر شبکه عصبی………………………………………………………….. 79
فصل اول
کلیات تحقیق
این فصل به تعریف مسأله و راهکار کلی میپردازد. در ابتدا سعی میشود که مسأله تعریف شود. سپس اهمیت و ضرورت مسأله، اهداف و فرضیهها شرح داده میشود و در نهایت ساختار این پژوهش، توضیح داده میشود.
1-1 بیان مسأله
ظرفیت ذخیره سازی داده های دیجیتال در سراسر جهان هر نه ماه برای حداقل یک دهه دو برابر شده است، در صورتی که در دو برابر مدت مشابه طبق پیش بینی قانون مور[1] قدرت محاسباتی و سرعت رشد میکند]1[. داده کاوی نشان دهنده یک گام در فرایند کشف دانش در پایگاه دادهها[2] میباشد]2[ که میتوان آن را یک نیاز اساسی در دنیای امروز دانست. بنا بر اعلام دانشگاه MIT امروزه مرز و محدودیتی برای دانش داده کاوی در نظر گرفته نشده و دامنه کاربرد آن را از اعماق اقبانوسها تا بی کران فضا میدانند]3[. تلاش برای الگوهای موجود در دادهها مدت زمان طولانی در بسیاری از زمینه ها، از جمله آمار، الگوشناسی[3] ، و تجزیه و تحلیل دادههای اکتشافی مورد مطالعه قرار گرفته شده است]4[.
داده کاوی به عنوان یک ابزار مهم برای کسب دانش از پایگاه داده های پدید آمده است]5[ از این رو میتوان به اهمیت الگوریتمهای داده کاوی پی برد که شبکههای عصبی و درخت تصمیم از جملهی این الگوریتمها میباشد. درخت تصمیم یک راه طبیعی برای ارائه یک فرآیند تصمیم گیری میباشد، چرا که درک آنها برای هر کسی ساده و آسان است]6[ همچنین محبوبیت شبکههای عصبی با دست اندرکاران داده کاوی در حال افزایش چشم گیر است زیرا آنها خود را، از طریق مقایسهی قدرت پیش بینی خود با تکنیکهای آماری با استفاده از مجموعه دادههای واقعی اثبات کردهاند]7[. تحقیقات جدید نمایانگر این است که الگوریتمهای ترکیبی دقت بیشتر و عملکرد بهتری را به نسبت به استفادهی مجزا و مستقل آنها در دادهکاوی از خود نشان میدهند]8[.
با توجه به آنکه تشخیص کنتورهای خراب توسط خود شرکت گاز با استفاده از دادههای موجود مقدور نمیباشد، این شرکت برای تعویض و شناسایی کنتورهای خراب میبایست مأمورینی داشته باشد که در محل حضور داشته و بصورت فیزیکی اقدام به تست کنتور نماید تا اگر احتمالا خراب بود اقدامات لازم را انجام دهند که با توجه به وجود تعداد زیاد مشترکین این عمل یک فرایند زمان بر، پرهزینه و سخت خواهد بود. نوع تحقیق حاضر براساس هدف طراحی و کاربردی می باشد. هدف از طراحی، طراحی یک روش ترکیبی از شبکه عصبی و درخت تصمیم برای کاوش دادههای شرکت شرکت ملی گاز در راستای کاهش هزینه پروژهی تعویض کنتورهای خراب میباشد که شرکت مذکور هر 7 سال یکبار باید اقدام به انجام آن در حوزه مربوطه مینماید. پروژه حاضر سعی دارد تا با طراحی روش ترکیبی از شبکه عصبی و درخت تصمیم فرآیند دادهکاوی را جهت تحلیل دادههای حوزه کرمانشاه استفاده کرده و کنتورهایی با احتمال بالای خرابی را شناسایی و به شرکت نام برده ارائه دهد تا در حد توان جهت کمینه کردن هزینه تشخیص و تعویض کنتورها کمک نماید.
[1] Moore’s Law
[2] knowledge discovery in databases (KDD)
[3] Pattern recognition
تعداد صفحه : 85
قیمت : 14700تومان