فهرست
چکیده.... ..8
تکنیکهای داده کاوی و متدلوژیهای ان
مقدمه. 9
عناصر داده کاوی.. 15
پردازش تحلیلی پیوسته:16
قوانین وابستگی:17
شبکه های عصبی :17
الگوریتم ژنتیکی:17
نرم افزار18
کاربردهای داده کاوی.. 18
داده کاوی و کاربرد آندر کسب و کار هوشمند بانک.... 19
داده كاوي درمديريت ارتباط بامشتري.. 21
کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی.. 22
مدیریت موسسات دانشگاهی.. 23
داده کاوی آماری و مدیریت بهینه وب سایت ها25
داده کاوی در مقابل پايگاه داده Data Mining vs database. 26
ابزارهای تجاری داده کاوی.. 27
منابع اطلاعاتی مورد استفاده28
انبار داده29
مسائل کسب و کار برای دادهکاوی.. 31
چرخهتعالیداده کاویچيست؟. 31
متدلوژی دادهکاوی و بهترین تمرینهای آن.. 35
یادگیری چیزهایی که درست نیستند. 36
الگوهایی که ممکن است هیچ قانون اصولی را ارائه نکنند. 36
چیدمان مدل ممکن است بازتاب دهنده جمعیت وابسته نباشد. 38
ممکن است داده در سطح اشتباهی از جزئیات باشد. 38
یادگیری چیزهایی که درست ولی بلااستفادهاند. 40
مدلها، پروفایلسازی، و پیشبینی.. 42
پیش بینی.. 44
متدلوژی.. 45
مرحله 1: تبدیل مسئله کسب و کار به مسئله دادهکاوی.. 46
مرحله 2: انتخاب داده مناسب... 48
مرحله سوم: پیش به سوی شناخت داده51
مرحله چهارم: ساختن یک مجموعه مدل.. 52
مرحله پنجم: تثبیت مسئله با دادهها54
مرحله ششم: تبدیل داده برای آوردن اطلاعات به سطح.. 56
مرحله هفتم: ساختن مدلها59
مرحله هشتم: ارزیابی مدل ها59
مرحله نهم: استقرار مدل ها63
مرحله 10: ارزیابی نتایج.. 64
مرحله یازدهم: شروع دوباره64
وظایف دادهکاوی65
1- دستهبندی.. 65
2- خوشهبندی.. 65
3- تخمین.. 66
4- وابستگی.. 68
5- رگرسیون.. 69
6- پیشگویی.. 70
7- تحلیل توالی.. 70
8- تحلیل انحراف... 71
9- نمایهسازی.. 72
تجارت الکترونیک
فصل اول: مقدمه اي بر تجارت الکترونيکي.. 73
1- طبقههاي مختلف تجارت الکترونيکي.. 75
2- تفاوت تجارت الکترونيکي با تجارت سنتي.. 76
3- نقش دولت در تجارت الکترونيک.... 78
فصل دوم : شکل دهي موقعيت بازار. 80
1- چار چوبي براي تحليل موقعيت بازار. 80
1-1- پرورش موقعيت :80
1-2-کشف هسته اصلي موقعيت :81
1-3- شناسايي مشتريان هدف :81
1-4- مطالعه توانمنديها و منابع شرکت :81
1-5- اندازه گيري جذابيت موقيت :82
2 ) ويژگي هاي تحليل موقعيت بازار در اقتصاد جديد:82
3_ دو نوع ارزش ( value type ) عمده. 84
3_2_ ارزش هاي جديد ( New-To-The-World value ) :86
4 – شناسايي نياز هاي برآورده شده و برآورده نشده. 88
4-1_ فرآيند تصميم گيري مشتري... 88
4-2_ آشکارسازي نيازهاي برآورده شده و برآورده نشده. 89
5- تعيين مشتريان ويژهاي که شرکت قصد متقاعد کردن آنهارا دارد.91
5-1- روشهايي براي تقسم بندي بازار:91
5-2- تقسيم بندي قابل اجرا و معني دار. 92
_ تقسيم بندي قابل اجرا(Actionable Segmentation)93
_ تقسيم بندي معني دار. 93
5-3-ترکيب مناسبي از متغير ها93
5-4-تناظر بازار و مشتريان هدف... 96
۶- تأمين منابع.. 97
6-1- منابع شركت :97
6-2- شركاﺀ :98
٧- جذابيت يک موقعيت :99
7-1- شدت رقابت.... 99
رقباي نزديک (Adjacent competitors) :100
بررسي رقبا : (competitor Map)100
7-2- پويايي هاي مربوط با مشتريان :101
7-3- فناوري :101
7-4- سود دهي مالي :103
8-ارزيابي نهايي(go/No-go)104
مدلهاي كسب و كار105
آيا شركت قادر است در مورد ارزش يا ارزشهاي ارائه شده با ديگران رقابت كند؟. 105
چگونه يك شركت يك سرويس آنلاين را توسعه مي دهد؟. 107
يك سيستم منابع مناسب و موفق چگونه است؟. 109
معيارهايي براي ارزيابي كيفيت يك سيستم منبع:112
مشاركت (Partnership):113
مدلهاي سوددهي براي شركتهاي آنلاين چه هستند؟. 114
2-1- مدلهاي مبتني بر كاربر و شركت:115
مدلهاي مبتني بر خلق ارزش توسط شركت:117
واسط مشتري.. 121
1- هفت عنصر طراحي براي واسط مشتري.. 121
2- چه چيز تعيين كننده جلوه يك وب سايت است؟. 125
3- محتويات وب سايت... 129
4- تشكل ها در سايت... 132
5- اهرمهاي مورد استفاده براي سفارشي كردن يك سايت... 136
6- يك سايت چگونه با مشتريان خود ارتباط بر قرار مي كند؟. 139
7- اتصال يك وب سايت با وب سايتهاي ديگر. 142
8- اشكال مختلف تجارت در وب سايت... 144
تبادل الكترونيكي داده ها (EDI)147
1- انواع خريد يک شرکت... 147
2- خريد مواد مستقيم.. 147
3- تبادل الکترونيکي داده ها (EDI) 148
EDI هاي نسل آينده150
منابع.......................................................................................................... 151
چكيده:
اين پايان نامه شامل دو بخش مي باشدبخش اول در مورد داده كاوي و تكنيكها ومتدلوژي هاي ان و بخش دوم در مورد تجارت الكترونيك مي باشد.
بخش اول شامل مطالبي در مورد عناصر داده كاوي و سپس كاربردهاي داده كاوي در موارد مختلف و تفاوت داده كاوي با پايگاه داده و متدلوژي ها و مراحل داده كاوي وهمچنين وظايف داده كاوي توضيحاتي داده شده است.
بخش دوم در مورد تجارت الكترونيكي كه در ان مقدمه اي از تجارت اتكترونيك و شكل دهي موقعيت بازار را بيان نموده است.
از هنگامي که رايانه در تحليل و ذخيره سازي داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پايگاه داده ها دو برابر شد. ولي پس از گذشت دو دهه و همزمان با پيشرفت فن آوري اطلاعات(IT) هر دو سال يکبار حجم داده ها، دو برابر شده و همچنين تعداد پايگاه داده ها با سرعت بيشتري رشد نمود. اين در حالي است که تعداد متخصصين تحليل داده ها با اين سرعت رشد نكرد. حتي اگر چنين امري اتفاق مي افتاد، بسياري از پايگاه داده ها چنان گسترش يافتهاند که شامل چندصد ميليون يا چندصد ميليارد رکورد ثبت شده هستند.امکان تحليل و استخراج اطلاعات با روش هاي معمول آماري از دل انبوه داده ها مستلزم چند روز کار بارايانه هاي موجود است.[3]
حال با وجود سيستم هاي يکپارچه اطلاعاتي، سيستم هاي يکپارچه بانکي و تجارت الکترونيک، لحظه به لحظه به حجم داده ها در پايگاه داده هاي مربوط اضافه شده و باعث به وجود آمدن حانبارهاي عظيمي از داده ها شده است.
این واقعیت، ضرورت کشف و استخراج سريع و دقيق دانش از اين پايگاه داده ها را بيش از پيش نمايان کرده است، چنان که در عصر حاضر گفته مي شود اطلاعات طلاست.
هم اکنون در هر کشور، سازمان، شرکت و غیره براي امور بازرگاني، پرسنلي، آموزشي، آماري و غیره پايگاه داده ها ايجاد يا خريداري شده است. به طوري که اين پايگاه داده ها براي مديران، برنامه ريزان، پژوهشگران جهت، تصميم گيري هاي راهبردي، تهيه گزارش هاي مختلف، توصيف وضعيت جاري خود و سایر اهداف مي تواند مفيد باشد. بسیاری از این داده ها از نرم افزارهای تجاری، مثل کاربردهای مالی، ERPها، CRMها و web log ها، می آیند. نتیجه این جمع آوری داده ها این میشود که در سازمانها، داده ها غنی ولی دانش ضعیف، است. جمع آوری داده ها، بسیار انبوه میشود و بسرعت اندازه آن افزایش می یابد و استفاده عملی از داده ها را محدود می سازد.[2]
دادهکاوی استخراج و تحلیل مقدار زیادی داده بمنظور کشف قوانین و الگوهای معنی دار در آنهاست. هدف اصلی داده کاوی، استخراج الگوهایی از داده ها، افزایش ارزش اصلی آنها و انتقال داده ها بصورت دانش است.
دادهکاوی، بهمراه OLAP، گزارشگری تشکیلات اقتصادی(Enterprise reporting) و ETL، یک عضو کلیدی در خانواده محصول Business Intelligence(BI)، است.[2Error! Reference source not found.]
حوزههای مختلفی وجود دارد که در آنها حجم بسیاری از داده در پایگاهدادههای متمرکز یا توزیع شده ذخیره میشود. برخی از آنها به قرار زیر هستند: [6Error! Reference source not found.]
در بیشتر این حوزهها، تحلیل دادهها یک روال دستی بود. یک تحلیلگر کسی بود که با دادهها بسیار آشنا بود و با کمک روشهای آماری، خلاصههایی تهیه و گزارشاتی را تولید میکرد. در یک حالت پیشرفتهتر، از یک پردازنده پیچیده پرسش استفاده میشد. اما این روشها با افزایش حجم دادهها کاملا بلااستفاده شدند.
واژه های «دادهکاوی» و «کشف دانش در پایگاه داده»[1] اغلب به صورت مترادف یکدیگر مورد استفاده قرار می گیرند. کشف دانش به عنوان يک فرآيند در شکل1 نشان داده شده است.
کشف دانش در پایگاه داده فرایند شناسایی درست، ساده، مفید، و نهایتا الگوها و مدلهای قابل فهم در داده ها میباشد. دادهکاوی، مرحلهای از فرایند کشف دانش میباشد و شامل الگوریتمهای مخصوص دادهکاوی است، بطوریکه، تحت محدودیتهای مؤثر محاسباتی قابل قبول، الگوها و یا مدلها را در داده کشف می کند[3Error! Reference source not found.]. به بیان سادهتر، دادهکاوی به فرایند استخراج دانش ناشناخته، درست، و بالقوه مفید از داده اطلاق میشود. تعریف دیگر اینست که، دادهکاوی گونهای از تکنیکها برای شناسایی اطلاعات و یا دانش تصمیمگیری از قطعات داده میباشد، به نحوی که با استخراج آنها، در حوزههای تصمیمگیری، پیش بینی، پیشگویی، و تخمین مورد استفاده قرار گیرند. دادهها اغلب حجیم، اما بدون ارزش میباشند، داده به تنهایی قابل استفاده نیست، بلکه دانش نهفته در داده ها قابل استفاده می باشد. به این دلیل اغلب به داده کاوی، تحلیل داده ای ثانویه[2] گفته میشود.
شکل1: دادهکاوی به عنوان يک مرحله از فرآيند کشف دانش
استخراج دانش در پایگاهداده[3] (KDD)، بعنوان روالی برای شناسایی الگوهای معتبر، جدید، بالقوه مفید، و سرانجام قابل فهم در دادهها، تعریف شده است. روال سراسری شامل تبدیل داده سطح-پایین به دانش سطح-بالاست. روال KDD در شکل 1 بطور خلاصه نشان داده شده است. این روال یک روال تعاملی و تکراری است که شامل مراحل زیر میباشد:[6Error! Reference source not found.]
1- درک دامنه کاربرد: این شامل دانش قبلی مرتبط و اهداف کاربرد است.
2- استخراج مجموعه داده هدف: این چیزی نست جز انتخاب یک مجموعه داده یا یک زیرمجموعه از متغیرها، با استفاده از تکنیکهای رتبهبندی و انتخاب است.
3- پیش پردازش داده: این مرحله برای افزایش کیفیت داده بکار گرفته شده برای دادهکاوی، لازم است. همچنین برای بهبود کارایی کاوش داده لازم است. پیش پردازش داده شامل پاکسازی داده، انتقال داده، یکپارچه سازی داده، کاهش یا فشردهسازی داده برای نمایش فشرده، و غیره است.
4- دادهکاوی: این مرحله شمل اعمال یکی از الگوریتمهای دادهکاوی است.
5- تفسیر: شامل تفسیر الگوهای استخراج شده، و تا حد امکان، بصری سازی این الگوهاست. بصری سازی یک کمککننده مهم در قابل فهم سازی الگوهاست.
6- استفاده از دانش استخراج شده: این مرحله شامل تلفیق این دانش با کارایی سیستم و گرفتن تصمیمات عملی براساس این دانش است.
بیشتر تکنیکهای دادهکاوی حداقل به عنوان الگوریتمهای آکادمیک از سالها یا دهه های قبل وجود داشته اند. تنها در دهه اخیر است که دادهکاوی تجاری نقش عمده ای را بازی کرده است.
چرا امروزه ما به دادهکاوی گرایش داریم؟ در زیر تعدادی از دلایل آن آورده شده:[2Error! Reference source not found.]
توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند. تحلیل داده مربوط به مشخصه های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است.
برای عملی شدن هریک از دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی اما مهم باید اجرا شوند که از این قرارند:
انتخاب داده ها
پاک سازی داد ها
غنی سازی داده ها
کد گذاری داده ها
با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده های اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم میتواند از انبار داده ها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع آوری شده؛ اغلب از آنچه آلودگی داده ها نامگذاری شده است رنج می برند و بنابراین لازم است پاکسازی شوند تا از یکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه بعمل آید. ممکن است داده های گردآوری شده از جنبه های خاصی ناقص یا ناکافی باشند. در این صورت داده های مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند. این فرایند مرحله غنی سازی داده ها را تکمیل میکند. یک سیستم کدگذاری مناسب معمولا" جهت انتقال داده ها به فرم ساختار-بندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه میشود .
فنون داده کاوی
ممکن است متوجه شده باشید که فنون داده کاوی یک گروه نامتجانس را شکل میدهند چرا که هر تکنیکی که بتواند بینش جدیدی از داده ها را استخراج کند میتواند داده کاوی به حساب آید. برخی از ابزارهای رایج بکار گرفته شده تحت عنوان داده کاوی عبارتند از:
ابزارهای پرس و جو: ابزارهای متداول زبان پرس و جوی ساختاربندی شده در ابتدا برای انجام تحلیلهای اولیه بکار گرفته شدند که می تواند مسیرهایی برای تفحص بیشتر نشان دهد.
فنون آماری: مشخصات اصلی داده ها لازمست با کاربرد انواع مختلفی از تحلیلهای آماری شامل جدول بندی ساده و متقاطع داده ها و محاسبه پارامترهای آماری مهم بدست آید.
مصور سازی: با نمایش داده ها در قالب نمودارها و عکسها مانند نمودار پراکندگی؛ گروه بندی داده ها در خوشه های متناسب تسهیل میشود. استنباط عمیق تر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.
پردازش تحلیلی پیوسته: از آنجا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند، روشهای متعددی برای ترکیب کردن آنها وجود دارد. ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک میکند و ابزارهای ابتدا-انتهای پیوسته برای انجام پرس و جو ایجاد میکند. اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.
یادگیری مبتنی بر مورد: این تکنیک مشخصات گروههای داده ها را تحلیل میکند و به پیش بینی هر نهاد واقع شده در همسایگی شان کمک میکند. الگوریتمهایی که استراتژی یادگیری تعاملی را برای کاوش در یک فضای چندین بعدی بکار میگیرند برای این منظور مفیدند.
درختان تصمیم گیری: این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده مربوط به یک پرس و جو را بازیابی می کند و به این ترتیب به ارزیابی صحیح گزینه های مختلف کمک میکند.
قوانین وابستگی: اغلب مشاهده میشود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه ای از داده های معین وجود دارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته و بکار گرفته میشوند.
شبکه های عصبی : این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را بر اساس کاربرد و ارزیابی نتایج بهبود می بخشد.
الگوریتم ژنتیکی: این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع میشود و رشدش در آینده را با حضور در برخی مراحل فرایند محاسبه احتمال جهش تصادفی؛ همانطور که در تکامل طبیعی فرض میشود طرح ریزی می نماید. این تکنیک به چند روش میتواند عملی شود. و ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر منحنی طراحی داده ها را تغییر میدهند؛ منعکس میکند.
گام نهایی فرایند داده کاوی، گزارش دادن است. گزارش شامل تحلیل نتایج و کاربردهای پروژه، درصورت بکارگیری آنها، است . و متن مناسب، جداول و گرافیکها را در خود جای می دهد. بیشتر اوقات گزارش دهی یک فرایند تعاملی است که تصمیم گیرنده با داده ها در پایانه کامپیوتری بازی میکند و فرم چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست می آورد.
داده کاوی در تولید چهار نوع دانش ذیل مفید است:
- دانش سطحی (کاربردهای (SQL
- دانش چند وجهی (کاربردهای (OALP
- دانش نهان (تشخیص الگو و کاربردهای الگوریتم یادگیری ماشینی)
- دانش عمیق (کاربردهای الگوریتم بهینه سازی داخلی)
نرم افزار
از آنجا که داده کاوی با بانکهای اطلاعاتی بزرگ سروکار دارد، به گونه ای ایده ال با تکنولوژی خدمت گیر-خدمت گر بکار میرود. کاربردهای عمومی داده کاوی بیشتر شامل تقسیم کردن داده ها در خوشه های مقتضی، کدگذاریهای مناسب، کاوش برای الگوها و طراحی کردن با استفاده از فنون آماری و الگوریتمهای ژنتیکی است. تعداد زیادی از بسته های نرم افزاری واجد این جنبه های ابزارهای داده کاوی با درجات متفاوتی از جامعیت در دسترس هستند. برای مثال بسته های نرم افزاری که منحصرا" برای کاربردهای OLAP در دسترس هستند عبارتند از: Oracle OLAP, DB2 OLAP Server, CleverPath OLAP . نرم افزارهای آماری عمومی مثل SPSS, SAS, STATISTICA با امکاناتی برای داده کاوی و بسته های نرم افزاری اختصاصی داده کاوی مثل Weka, InsightfulMiner3, Text Mining Software, Enterprise Data Mining software, PolyAnalyst 4.6 مفید هستند.
داده کاوی کاربردهای مختلفی دارد که اهم کاربردهای آن:
۱- كشف تقلب (كلاهبرداري) و آناليز ريسك
كشف تقلب كارتهاي اعتباري
كشف پولشويي
ريسك پرداخت وام
۲- خــرده فروشي (تكفروشي)
فروش و تبليغ
كوپن
3-آناليز بازار استوك
۴- تشخيص جرائم .
۵- پيش بيني سيل.
۶- ارتباطات راه دور
۷- تشخيص طبي و درمان.
۸- آناليز داده DNA و زيست پزشكي(Biomedical).
چه ژنهايي با ژنهاي ديگر همزمان رخ ميدهند.
ترتيب عمليات ژنتيكي در مراحل بيماري چيست.
۹- وب كاوي Web Mining
ارتباط بين صفحات گوناگون چيست.
مشخصات صفحه وب چيست.
توزيع اطلاعات در وب چگونه است.
برای آشنایی بیشتر با داده کاوی چند کاربرد مهم و کاربردی آن را مورد مطالعه قرار می دهیم:
داده کاوی و کاربرد آندر کسب و کار هوشمند بانک
با رشد فزاینده حجم دادهها در سیستمهای متنوع کسب و کار، و همچنیننیاز روز افزون جهت دستیابی به اطلاعات ارزشمند و معرفت از این دادههای خام، دادهکاوی به عنوان روشی مهم و پرکاربرد برای استخراج اطلاعات و ارضاء این نیاز مطرح شدهاست. در واقع داده کاوی(Data Mining) بخشی از فرایند استخراج معرفت(Knowledge Discovery) است که در آن الگوهای مفید و ضمنی در پایگاه داده ها جستجو میشوند. در این میان با افزایش کاربرد سیستمهای اطلاعات جغرافیایی، پایگاههای بزرگی ازدادههای متنوع جغرافیایی در دسترس قرارگرفتهاند که کمک شایانی به انجام تحلیلهایکاملتر و دقیقتر مینمایند.داده کاوی روی دادههایی که دارای یک یا چند ویژگیمکانی، فضایی و یا جغرافیایی باشند، داده کاوی فضایی(Spatial Data Mining) نامیدهمیشود و خروجی آن اطلاعات و معرفتی است که دارای خصوصیات فضایی و جغرافیایی، مانندمکان، جهت، فاصله، شکل هندسی و مانند آن می باشد. هدف از این پروژه بررسیو اجرای یک روش داده کاوی پیشرفته روی دادههای فضايي موجود در بانک ملت ایرانمیباشد که با دادههای مختلف بانکی از قبیل مکان شعب، شاخصهای بانکی مانند درآمد،سود، هزینه، تعداد کارکنان، میزان مراجعه و مانند آن تلفیق خواهند شد. بدین معنی کهبعد از انجام مراحل لازم جهت آماده سازی دادهها -با ملاحضات لازم به دلیل فضاییبودن آنها- برای عملیات داده کاوی، شامل پردازش و پاکسازی دادهها(Data Processing and Cleaning) و ساخت انبار دادهها(Data warehousing)، و همچنین در نظر گرفتنروشهای دسترسی به دادههای فضایی(Spatial Data Access) ، الگوریتمی برای استخراجقوانین وابستگی(Association Rule Mining) توسعه و پیاده سازی خواهد شد و از آن برایکشف روابط موجود ما بین مقادیر مختلف فضايي و جغرافیایی مانند ترکیب جمعیتی،کاربریهای منطقه، وضعیت سنی، درآمد، تحصیلات، موقعیت رقبا، شبکه معابر و مانند آناز یک طرف و شاخصهای بانکی شعب مانند سود، هزینه، درآمد، کارایی و مانند آن از طرفیدیگر استفاده خواهد شد. دانش استخراج شده از این فرایند، در تصمیم گیریی های مختلفمدیران در حوزه مدیریت شعب، مانند مکانیابی، توسعه، تلفیق و تنظیم شعب، کاربرد واهمیت بالایی خواهد داشت.
داده كاوي درمديريت ارتباط بامشتري
داده كاوي يكي از عناصر مديريت ارتباط با مشتري است و مي تواند به حركت شركتها به سمت مشتري محوري كمك كند.
داده هاي خام از منابع مختلفي جمع آوري مي شوند و از طريق استخراج، ترجمه و فرايندهاي فراخواني به انبار داده اين مديريت وارد مي شوند. در بخش مهيـــاسازي داده، داده ها از انبار خارج شده و به صورت يك فرمت مناسب براي داده كاوي در مي آيند.
بخش كشف الگو شامل چهار لايه است:
1 - سوالهاي تجاري مانند توصيف مشتري،2 - كاربردها مانند امتيازدهي، پيش گويي،3 - روشها مانند سري هاي زماني، طبقه بندي،4 - الگوريتم ها.
در اين بخش روشهاي داده كاوي با كاربرد مخصوص خود براي پاسخ به سوالهاي تجاري كه به ذهن مي رسند، الگوريتم هايي را استخراج مي كنند و از اين الگوريتم ها براي ساخت الگو استفاده مي شود.
در بخش تجزيه و تحليل الگو، الگوها به يك دانش مفيد و قابل استفاده تبديل مي شوند و پس از بهبود آنها، الگوهايي كه كارا محسوب مي شوند در يك سيستم اجرايي به كار گرفته خواهند شد.
رابطه مشتري با زمان تغيير مي كند و چنانچه تجارت و مشتري درباره يكديگر بيشتر بدانند اين رابطه تكامل و رشد مي يابد. چرخه زندگي مشتري چارچوب خوبي براي به كارگيري داده كاوي در مديريت ارتباط با مشتري فراهم مي كند. در بخش ورودي داده كاوي، چرخه زندگي مشتري مي گويد چه اطلاعاتي در دسترس است و در بخش خروجي آن، چرخه زندگي مي گويد چه چيزي احتمالاً جالب توجه است و چه تصميماتي بايد گرفته شود. داده كاوي مي تواند سودآوري مشتري هاي بالقوه را كه مي توانند به مشتريان بالفعل تبديل شوند، پيش بيني كند و اينكه تا چه مدت به صورت مشتريان وفادار خواهند ماند و چگونه احتمالاً ما را ترك خواهند كرد.
بعضي از مشتريان مرتباً مراجعاتشان را به شركتها براي كسب مزيتهايي كه طي رقابت ميان آنها به وجود مي آيد، تغيير مي دهند. در اين صورت شركتها مي توانند هدفشان را روي مشترياني متمركز كنند كه سودآوري بيشتري دارند.
بنابراين مي توان از طريق داده كاوي ارزش مشتريان را تعيين، رفتار آينده آنها را پيش بيني و تصميمات آگاهانه اي را در اين رابطه اتخاذ كرد.
کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهیداده کاوی در ابتدا از حوزه تجارت برخاست اما کاربردهای آن در سایر حوزه هائی که به گردآوری حجم وسیعی از داده هائی می پردازند که دستخوش تغییرات پویا نیز می گردند؛ مفید شناخته شد. بخشهایی مثل بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه اند.
انتظار میرود که استفاده از داده کاوی در بخش آموزش بطور عام امکانهای جدید بسیاری ارائه دهد. برخی کاربردهای داده کاوی در کتابخانه ها و قسمت اداری آموزش در ذیل مورد بحث قرار گرفته اند.عملیات کتابداری بطور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار دارد و بطور جداگانه پردازش میشود. اگرچه، انجام تحلیل ترکیبی براین مجموعه های داده نیز میتواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه ها و عملیات جاری کمک نماید. جدول یک برخی از کاربردهای ممکن داده کاوی را که میتواند در کتابداری مفید باشد ارائه میکند.
جدول یک- کاربردهای داده کاوی در کتابخانه ها
کاربرد متصور |
بانک اطلاعاتی |
برای تعیین نقاط قوت و ضعف مجموعه |
گردآوری منابع |
برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال |
استفاده از مجموعه |
برای تحلیل سفارشهای پاسخ داده شده و سفارشهای دریافت شده |
امانت بین کتابخانه ای |
برای پیش بینی روند بازگشت منابع |
داده های بخش امانت |
برای نشان دادن منابع مالی بکار گرفته شده |
داده های هزینه |
داده کاوی میتواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم گیری کمک میکنند، استفاده شود . برای مثال سوال میتواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده شود چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخاب شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواستهای اعضا برای میکروفیلمها طی 5 سال گذشته نیز همگی مثالهایی از کشف روندهای عمومی اند. دامنه تحلیل استنادی هم میتواند با استفاده از داده کاوی گسترش داده شود.
در ارتباط با کتابخانه ها، وب کاوی حوزه دیگری از علاقمندی است. وب کاوی شامل محتوا کاوی وب، ساختار کاوی وب و استفاده کاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد.
مدیریت موسسات دانشگاهی
اداره موسسات دانشگاهی کار پیچیده ای است. در این موسسات دائما" نیاز به درآمدزایی و خود- کارآمدی و کاهش وابستگی به بودجه دولتی احساس میشود. این مساله کنترل دائمی جنبه های مختلف هر فعالیت و پروژه را می طلبد. بانکهای اطلاعاتی برای چنین موسساتی مربوط به دانشجویان، دانشکده، اساتید و کارمندان، تعداد رشته ها و چند مورد دیگر است . ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی میکند. مرور بانکهای اطلاعاتی نمونه در جدول 2 نمایانگر کاربردهای بالقوه داده کاویست.
جدول 2- کاربردهای داده کاوی در موسسات دانشگاهی
کاربرد متصور |
بانک اطلاعاتی |
برای درک رابطه های جمعیت شناختی، اقتصادی و اجتماعی |
ثبت نام دانشگاهی |
برای ایجاد رابطه بین عوامل اقتصادی-اجتماعی و نمرات اخذ شده |
کارایی دانشگاهی |
برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان |
بانک سوالات |
برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه |
همکاری فکری |
برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته ها |
انتشارات |
برای تحلیل سوالات دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته های جدید دانشگاهی |
بازدید از وب سایت |
کاربرد داده کاوی در دانشگاه ملی سنگاپور قابل ملاحظه است. در این دانشگاه از ابزارهای داده کاوی برای شناسایی و دسته بندی دانشجویانی که به کلاسهای پیش نیاز برای واحد درسی ارائه شده نیاز داشتند استفاده شد. (Kurian and John, 2005)
علاوه بر آن، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی، مدیریت روابط دانشجو و به تصویر کشیدن رفتار گروههای مختلف میتواند بوسیله ابزارهای داده کاوی انجام شود.
محدودیت ها
کاربرد داده کاوی با چند عامل محدود شده است. اولین مورد به سخت افزار و نرم افزار لازم و موقعیت بانک اطلاعاتی مربوط میشود . برای مثال در هند، داده های غیر مجتمع که برای کاربردهای داده کاوی لازم است ممکن است به فرم دیجیتالی در دسترس نباشد. در دسترس بودن نیروی انسانی ماهر در داده کاوی نیز مسأله مهم دیگری است. محرمانه بودن رکوردهای مراجعان ممکن است در نتیجه پردازش داده های مبتنی بر داده کاوی آسیب پذیر شود. کتابداران و مؤسسات آموزشی باید این مسأله را در نظر داشته باشند؛ چرا که در غیر اینصورت ممکن است گرفتار شکایات قانونی گردند.
محدودیت دیگراز ضعف ذاتی نهفته در ابزارهای نظری ناشی میگردد. ابزارهایی مانند یادگیری ماشینی و الگوریتمهای ژنتیکی بکار گرفته شده در فعالیتهای داده کاوی به مفاهیم وفنون منطق و آمار بستگی دارد. در این حد نتایج به روش مکانیکی تولید شده و بنابراین به یک بررسی دقیق نیاز دارند. اعتبار الگوهای بدست آمده به این طریق؛ باید آزمایش شود. چرا که که در بسیاری موارد روابط علل و معلول مشتق شده؛ از برخی استدلالات غلط ذیل رنج میبرند.
داده کاوی آماری و مدیریت بهینه وب سایت ها
هر سایت اینترنتی بر اساس حجم فعالیت خود برای نگهداری به افراد مختلفی که آشنا به امور فنی و اجرایی باشند نیاز دارد. مدیر سایت به عنوان شخصی که تنظیم کننده و هماهنگ کننده تمام این افراد است باید برای هر کدام از بخشهای سایت از قبیل گرافیک، محتوا، امور فنی، بازاریابی و... برنامههای مختلفی را تهیه و برای اجرا در اختیار همکاران خود قرار دهد. این برنامه ها می توانند شامل برنامه های روزانه، هفتگی و ماهانه باشند. تمامی این برنامه ها در راستای یک هدف کلی و نهایی به انجام می رسند و آن هم بالا رفتن کارایی اقتصادی سایت است.
سایت ها زمانی می توانند خود را در سطح اقتصادی اطمینان بخشی قرار دهند که از بازدیدکنندگان و کاربران و قابل توجهی برخوردار باشند. برای این کار مدیر سایت سعی می کند مطالعه و تحقیق گسترده ای بر روی عوامل و ابزارهای افزایش دهنده تعداد کاربران سایت انجام دهد و از این طریق در واقع به مطالعه شرایط و موقعیت خود در بازار مجازی اینترنت می پردازد. به عنوان مثال وی در مورد رنگ های به کار رفته در سایت، لوگو و سایر قطعات گرافیکی سایت، متن های به کار رفته و بسیاری دیگر از مسائل مرتبط با سایت به بررسی و مطالعه می پردازد.یکی از روش ها و راهکارهایی که کمک بسیار زیادی برای بهتر شدن فرآیند مدیریت وب سایت ها می کند استفاده از گزارش ها و تحلیل های آماری است. مدیران سایت ها و مدیران بازایابی شرکت ها با استفاده از گزارش های به دست آمده از فعالیت سایت اینترنتی میتوانند شناخت خوبی از موقعیت و تاثیر فعالیت های خود پیدا کنند و از این طریق نقاط ضعف و قوت سایت را به راحتی شناسایی و برای حل و تقویت آنها تغییرات لازم را در سایت اعمال نمایند و به برنامه های آینده و حتی استراتژی های سایت جهت ببخشند.
داده کاوی در مقابل پايگاه داده
Data Mining vs database
۱- كاربر پايگاه داده ميداند دنبال چه چيزي است.
۲- اما كاربر داده كاوي ممكن است بداند و ممكن است نداند در جستجوي چيست.
۳- پاسخ پايگاه داده به سوال ۱۰۰٪ دقيق است٬ اگر داده صحيح باشد.
۴- اما تلاش داده كاوي اين است كه تا حد ممكن پاسخ دقيق بدست آورد.
۵- داده پايگاه داده همانطور كه ذخيره ميشود بازيابي نيز ميگردد.
۶- اما داده در داده كاوي٬قبل از توليد نتايج نياز به (تا حدي) تميز (clean) شدن دارد.
۷- نتايج پايگاه داده زير مجموعه اي از داده است.
۸- نتايج داده كاوي تجزيه و تحليل و آناليز داده است.
۹- معنا دار بودن نتايج آنقدر كه در داده كاوي اهميت داشته و جزء اصلي ترين مسايل آن مطرح ميگردد٬ در پايگاه داده مورد توجه نيست.
به عبارت ساده پايگاه داده تنها ذخيره و بازيابي داده است اما داده كاوي آناليزي است كه روي اين داده ها صورت ميپذيرد تا بتواند قوانيني از آن استخراج نمايد يا پيش بيني صورت دهد
ابزارهای تجاری داده کاوی
DM CommercialTools
در مورد ابزارهاي موجود براي داده كاوي بايد به اين نكات توجه داشت كه:
مدل/معماري مشتركي بين آنها موجود نمي باشد.
به منابع داده گوناگون و نه لزوماً همه گونه منبعي دسترسي دارند.
از يك يا بيشتر الگوريتم DM پشتيباني مينمايد.
ممكن است از تمام انواع داده پشتيباني كند يا نكند.
قابليتهاي مختلف اما نه تمام آنها را پشتيباني مينمايد.
وابسته به بستر كاري
هر كاربردي ممكن است با يك ابزار كار كند و با ابزار ديگر كار نكند.
ابزارهای تجاری برای داده کاوی
Darwin (Oracle Corp.)
MineSet (Silicon Graphics Inc. - SGI)
IntelligentMiner (IBM Corp)
Enterprise Miner (SAS Institute Inc.)
Clementine (SPSSInc – Integral Solutions)
DMMiner (DBMiner Technology Inc.)
BrainMaker (California Scientific Software)
CART (Salford Systems)
MARS (SalfordSystems)
Scenario (Cognos Inc.)
Web Analyst (Megaputer IntelligenceInc.)
SurfAid Analysis (IBM corp)
Visualizer Workstation (Computer ScienceInnovations, Inc)
منابع اطلاعاتی مورد استفاده
منابع اطلاعاتی گوناگونی را ميتوان در زمينه داده کاوی بکار برد که عبارتند از:
---> پایگاه داده های رابطه ای
---> انبارهای داده
---> فایلها
---> وب
--->پایگاه های داده شیءگرا
---> چند رسانه ای
انبار داده
--->بسياری از سازمانها داده های خود را از مخازن داده همگن و ناهمگن در يک مجموعه داده عمومی به نام انبار داده جمع آوری و ذخيره مينمايند.(DataWarehouse)
--->انبار داده شامل داده های فعلی و قبلی است كه برای برنامه ريزی و پيش بينی در سيستمهای پشتيبان تصميمگيری (Decision Support System) استفاده خواهد گرديد.
--->پايگاه های داده سنتی پايگاه هايی عملياتی هستند كه داده های روزانه را در خود ذخيره مينمايند.
--->star -schema, Snow-Flakes و Galaxy مدلهای رايج در انبارهای داده هستند.
---> برای افزايش كارايی در DW تكنيكهای مختلفی مانند خلاصه كردن و denormalization استفاده ميگردد.
مسائل کسب و کار برای دادهکاوی
تکنیکهای دادهکاوی می تواند برای کاربردهای بسیاری بکار رود، در زیر تعدادی از مسائل کسب و کار معمولی را که میتوان با دادهکاوی برای آنها پاسخی یافت، شرح داده میشود:
تحلیل رویگردانی[4] : کدام مشتریان بیشتر تمایل دارند بسمت رقیب ما بروند؟ امروزه صنایع تله کام، بانکداری و بیمه، بیش از دیگران در معرض این رقابت ها هستند. بطور متوسط، هر مشترک جدید تلفن همراه، برای شرکت تلفن، هزینه ای بالغ بر 200 دلار در بازار سرمایه گذاری دارد. هر کسب و کاری می خواهد مشتریان بیشتری را کسب کند. تحلیل رویگردانی می تواند به مدیران بازاریابی کمک کند تا دلایل رویگردانی مشتری را درک کند و روابط مشتری را بهبود دهد و وفاداری مشتری را افزایش دهد.
فروش متقاطع[5]: مشتریان چه محصولاتی را دوست دارند بخرند؟ فروش متقاطع برای خرده فروشان یک چالش تجاری بزرگ است. بسیاری از خرده فروشان، بویژه خره فروشان online، برای افزایش فروش خود از این ویژگی استفاده می کنند. برای مثال، اگر شما به یک کتابفروشی Online مثل Amazon.com برای خرید یک کتاب، بروید، شما متوجه شده اید که وب سایت مجموعه ای از پیشنهادات درباره کتابهای مرتبط را به شما پیشنهاد می کند. این پیشنهادات را می توان از تحلیل دده کاوی گرفت.
کشف تقلب: آیا این ادعای بیمه، کلاهبرداری است؟ شرکت های بیمه، روزانه هزاران دعوی بیمه دارند. برای آنها مهم است که درباره هر مورد تحقیق و بررسی کنند. دادهکاوی می تواند برای شناسایی دعاوی ای که بیشتر نادرست هستند، کمک کند.
مدیریت ریسک: آیا باید این درخواست وام برای این مشتری تصویب شود؟ این یک سوال بسیار رایج در سناریوهای بانکی است. تکنیک های دادهکاوی می توانند برای رتبه بندی سطح ریسک یک مشتری، بکار روند، و به مدیر در گرفتن یک تصمیم مناسب برای هر کاربرد، کمک کنند.
قطعهبندی مشتریان: چه کسی مشتری من است؟ قطعهبندی مشتریان به مدیران بازاریابی کمک میکند که تفاوت های پروفایلهای مشتریان را درک کنند و عمل بازاری مناسبی را بر مبنای هر بخش، انجام دهند.
تبلیغات هدفدار: چه بنر تبلیغی باید برای یک بازدیدکننده خاص، نمایش داده شود؟ فروشندگان وب و سایت های پورتال تمایل دارند که محتوای خود را برای مشتریانشان سفارشی کنند. با استفاده از الگوهای ناوبری مشتری یا خرید online، این سایت ها می توانند راه حل های دادهکاوی را برای نمایش تبلیغات هدف دار برای مشتریانشان، بکار برند.
پیشبینی فروش: من چه نمونههایی را در این فروشگاه در این هفته خواهم فروخت؟ تکنیکهای پیشبینی دادهکاوی می تواند برای پاسخ به انواع این پرسش های مرتبط با زمان، بکار روند.
چرخهتعالیداده کاوی[6]چيست؟
باید بتوان دادهها را به اطلاعات، اطلاعات را به عمل و عمل را به ارزش تبديل کرد. این را در یک کلام چرخه تعالی دادهکاوی مینامند. به منظور دستيابي به اين هدف لازم است دادهکاوی به صورت يک فرآيند ضروري در كنار ساير فرآيندها نظير بازاريابي، فروش، پشتيباني مشتري وکنترل موجودي درآید.
در ادبيات بازاريابي دادهکاوی را بسیار آسان جلوه ميدهند بطوریکه تنها كافيست الگوريتمهاي خودكار تهیه شده توسط بهترين دانشمندان دانشگاهي نظير شبکههاي عصبي، درختهاي تصميمگيري و الگوريتم ژنتيک را به کار برد تا در مسير موفقيت قرار گيريد. اگرچه این الگوريتم ها مهمند، اما راه حل هاي داده کاوی چيزي فراتر از مجموعهاي از تکنیکها و ساختارهاي دادهاي قوی است. اين تکنیکها را باید در جاي مناسب و با دادههاي صحيح بکار برد. چرخه تعالی دادهکاوی یک فرآيند يادگيري تکراري و مرحلهاي است که بر اساس نتايج در طول زمان تهیه میگردد. موفقيت در بکارگيري دادهها، وضعيت يک سازمان را از واكنشي به كنشگرا تبديل خواهد نمود. با استفاده از چرخه تعالي دادهکاوی مطرح شده در این کارگاه، بيشترين سود از تکنیکهای دادهکاوی به دست میآید.
این چرخه شامل چهار مرحله است:
تشخيص مشكل كسبوكار و تجارت
واكاوي دادهها براي تبديل آنها به اطلاعات عملي
كار روي اطلاعات
بررسینتايج
کلید موفقيت، در گنجاندن داده کاوی در فرآيندهای تجاری است و اینکه بتوان راههاي ارتباطی ميان داده کاوان تکنیکی و کاربران تجاري نتايج یافت.
تعيين فرصتهايكسبوكاروتجارت
چرخه تعالی داده کاوی با تعيين فرصتهاي واقعی كسبوكار و تجارت آغاز مي گردد. متأسفانه تحليلگران زيادي هستند که معمولاً تلاشهايشان بی ثمر می ماند زيرا آنها مسائلي را حل ميکنند که به كسبوكار و تجارت کمکي نمينمايد. دادهکاوان خوب ميخواهند اين وضعيت برایشان پیش نیاید. اجتناب از تلاشهاي تحليلي بيحاصل با اراده برای كار روي نتايج آغاز ميگردد.
بيشتر فرايندهاي تجاری معمول کانديداهاي خوبي براي داده کاوی هستند:
برنامهريزي براي معرفي محصول جديد
برنامهريزي براي بازاريابي مستقيم
فهم احساسات و گلایههای مشتريان
اگر نتوان نتايج دادهکاوی را سنجید نمیتوان از آن چیزی یاد گرفت و آنگاه هیچ چرخه تعالی وجود نخواهد داشت. سنجش تلاشهاي صورتگرفته در گذشته سوالاتی را درباره تجارت، فرصتهاي جديدي از داده کاوی را فراهم ميکند:
چه نوع مشترياني به جديد ترين اقدام پاسخ داده اند؟
بهترين مشتريان کجا زندگي ميکنند؟
آیا صرف زمان طولانی در پای دستگاههای خودپرداز دلیل گلایه آنهاست؟
آيا مشتريان سودآور از خدمات پشتيباني مشتريان استفاده ميكنند؟
چه نوع محصولات دیگری را بايد با یک محصول خاص تبلیغ نمود؟
مصاحبه با خبرگان تجارت، روش خوب ديگري براي آغاز است؛ زيرا ممکن است كساني كه در داخل تجارت هستند، با دادهکاوی آشنا نباشند. آنها ممکن است ندانند چگونه روي نتايج کار کنند.
با بیان ارزش دادهکاوی براي یک سازمان، چنين مصاحبههايي امكان ایجاد ارتباطي دوسويه را فراهم ميکند
مشکلات درراهکسب تواناییاستفاده از نتايج داده کاوی
دادهها در اشکال گوناگون و از سيستمهاي چندگانهاي ظاهر ميشوند.تشخيص منابع درست دادهها و گرد آوردن آنها کنار يکديگر از عوامل حیاتی در موفقيت میباشد.
هر پروژه دادهکاوی مسائل خاص خود در ارتباط با داده ها را دارد: سيستمهاي اطلاعاتی ناهماهنگ، اطلاعاتی که هر چند ماه یکبارباز نويسي ميشوند. در اینجاست که الگوریتمهای دادهکاوی بکار میآیند.
انجام عمل
انجام عمل، هدف چرخه متعالی داده کاوی است. همانطور که ذکر شد، عمل می تواند اشکال مختلفی داشته باشد. دادهکاوی سبب می شود تصمیمات کسب و کار آگاهانهتر اتخاذ شود. و در طول زمان، تصمیمات با آگاهی بیشتر، نتایج بهتری بدنبال دارد.
اعمال معمولا به سمت آنچه کسب و کار انجام می دهد، پیش میروند:
ارسال پیام ها به مشتریان و انتظارات از طریق پست مستقیم، پست الکترونیک، بازاریابی از راه دور و غیره.
با دادهکاوی، این امکان بوجود می آید که پیامهای مختلف به افراد مختلفی فرستاده شود.
اولویت بندی سرویس های مشتریان
تعدیل کردن سطوح موجودی
وغیره
لازم است که نتایج داده کاوی روال های کسب و کار را تغذیه کند تا مشتریان لمس شوند و روی روابط با مشتریان تاثیر گذاشته شود.
اندازه گیری نتایج
اهمیت اندازه گیری نتایج، در حال حاضر پررنگ خواهد شد. علیرغم اهمیت آن، این مرحله ای است در چرخه تعالی که اغلب چشمپوشی می شود. حتی با اینکه بر ارزش اندازهگیری و بهبود پیوسته، بسیار تاکید شده است، معمولا به نسبت استحقاق آن، توجه کمتری به آن می شود. چقدر موارد کسب و کاری وجود دارد که پیاده سازی شده اند و هیچ کسی برنگشته تا ببیند آیا آنچه پیادهسازی شده واقعا با طرح سازگار است یا خیر؟ افراد تلاش هایشان را با مقایسه و یادگیری کنترل میکنند، با طرح سوالاتی درباره اینکه چرا طرح ها با آنچه واقعا اتفاق افتاده سازگار است یا سازگار نیست. آنچه برای افراد صدق میکند برای سازمان ها نیز کاربرد دارد.
زمان شروع تفکر درباره اندازهگیری در شروع زمان شناسایی مسئله کسب و کار است. چطور میتوان نتایج را اندازهگیری کرد؟ يک معيار مناسب ديگر، سنجش افزايش فروش در مغازهها و يا مناطق مشخص است. این افزایشها را میتوان به تلاشهای خاص بازاریابی مرتبط نمود. ممکن است چنين سنجشهایی از آنجا كه نيازمند اطلاعات جزئي فروش است مشكل باشد. با این وجود اگر هدف افزايش فروش است روشي براي بررسی مستقيم آن لازم است.
ايده خوبياست كه به هر تلاش داده کاوی به عنوان يك مورد كوچك تجاری نگاه کنیم.
مقايسه انتظارات با نتايج عملي این امکان را ایجاد میکند که فرصتهاي آتی را تشخیص دهیم تا از آنها در دوره هاي بعدي چرخه تعالي بهره ببريم. هر اقدام دادهکاوی چه موفقيتآمیز باشد یا نه، حاوی نکاتی است که ميتواند براي تلاشهاي آتي بکار رود.
سؤال اين است که چه چيزي را بررسی نماييم و چگونه به آن بپردازیم، تا بهترين وروديها را براي استفاده های آتی داشته باشیم.
متدلوژی دادهکاوی و بهترین تمرینهای آن
در بخش قبل ما چرخه تعالی دادهکاوی و مراحل آنرا بررسی کردیم. حالا زمان آن رسیده که به دادهکاوی بعنوان یک روال تکنیکی نگاهی بیندازیم. رئوس مطالب در سطح بالا، همان باقی میماند ولی تاکیدها منتقل میشود. به جای شناسایی مسئله کسب و کار، حالا می خواهیم توجهمان را از مسئله کسب و کار به مسئله دادهکاوی منتقل کنیم.
بهترین راه برای دوری از شکست چرخه دادهکاوی، درک راههای عدم موفقیت آن و اخذ تدابیر پیشگیرانه است. در طول سالها، مولفان با راههای زیادی برای پروژههای دادهکاوی مواجه شدهاند که به اشتباه رفته اند. در پاسخ، ما مجموعه ای از عادات کارآمد را توسعه داده ایم- چیزهایی که ما باید برای هموار کردن مسیرمان از جمله ابتدایی مسئله کسب و کار تا یک مدل پایدار که نتایج قابل اندازهگیری و قابل اعمالی را تولید میکند، انجام دهیم. دادهکاوی یک روال تکراری طبیعی است. لازم است برخی مراحل را چندین بار تکرار کرد، ولی هیچیک را نمیتوان کاملا نادیده گرفت.
با افزایش پیچیدگی راه حل دادهکاوی، نیاز به وجود یک مشی سفت و سخت بیشتر است. پس از اینکه نیاز به وجود متدلوژی با راههای مختلفی توضیح داده شد، با استفاده از پرسش های خاص منظوره نشان داده خواهد شد که در صورت نبود یکی از مراحل آن، تلاش های دادهکاوی با شکست مواجه خواهند شد. در پایان، 4 مرحله از چرخه تعالی دادهکاوی به 11 مرحله متدلوژی دادهکاوی تبدیل میشود.
چرا یک متدلوژی داشته باشیم؟
دادهکاوی راهی است برای یادگیری از گذشته تا بتوان تصمیمات بهتری در آینده گرفت. داشتن یک متدلوژی برای اجتناب از دو نتیجه نامطلوب روال یادگیری است:
یادگیری چیزهایی که درست نیستند
یادگیری چیزهایی که درست نیستند بسیار خطرناکتر از یادگیری چیزهایی است که کارآمد نیستند، چون بسیار مهم است که تصمیمات سازمان براساس اطلاعات درست گرفته شود. یافتههای دادهکاوی به نظر میرسد که قابل اعتماد باشند چون بر اساس دادههای واقعی در یک حالت ظاهرا علمی هستند. این نمود قابل اعتماد میتواند فریبنده باشد. ممکن است داده نادرست باشد یا مرتبط با سوال نباشد. انتقال دادهها مانند خلاصهسازیها، ممکن است مشکلدار باشند یا اطلاعات مهمی را پنهان کنند. در زیر درباره برخی از مسائل بسیار رایجی که منجر به استنتاجات اشتباه میشوند، بحث میکنیم.
الگوهایی که ممکن است هیچ قانون اصولی را ارائه نکنند
ارقام اغلب دروغ نمیگویند، ولی دروغ ها میتوانند رقم شوند. وقتی میخواهیم الگوها را در دادهها بیابیم، ارقام واقعا نمیخواهند با هدف پیشنهاد چیزهای نادرست، بما دروغ بگویند. راههای زیادی وجود دارد که الگوهایی ساخته شود که هر مجموعه داده تصادفی، اگر به اندازه کافی آزمایش شود، یکی را آشکار خواهد کرد. ما انسانها، به الگوها در زندگیمان بسیار وابستهایم و دوست داریم آنها را همه جا ببینیم حتی اگر وجود نداشته باشند. وقتی به آسمان شب نگاه میکنیم و یک مجموعه تصادفی ستارگان را میبینیم، آنها را به شکل دب اکبر، دب اصغر و غیره می بینیم. گاهی حتی الگوهای مربوط به نجوم را نشانههایی میبینیم که از آینده خبر میدهند.
احتمالا دلیل اینکه بشر این قبیل وابستگیها را برای الگوها استنتاج میکند این است که این الگوها اغلب برخی حقایق را درباره کار جهان، بازتاب میدهند.
چالش پیش روی کاونده داده این است که کشف کند که کدام الگوها پیشگویانه هستند و کدام نیستند. به الگوهای زیر دقت کنید، همه آنها در مقالات بعنوان اینکه ارزش پیش بینی دارند، ذکر شدهاند:
الگوی اول، به نظر میرسد که با عبارات صرف سیاسی قابل توضیح باشد. چون در اینجا یک توضیح متضمن آن وجود دارد، این الگو به نظر میرسد به آینده نظر دارد بنابراین ارزش پیشگویانه خواهد داشت. دو عبارت بعدی، یکی که حاوی حوادث ورزشی است، به نظر میرسد که به وضوح ارزش پیشگویی نداشته باشد. هیچ اهمیتی وجود ندارد که چند بار در گذشته فاتحان جمهوری خواهان و لیگ آمریکایی، مشترک بوده اند و این چیزی است که تحقیقی برای آن انجام نشده است. در مورد قد کاندیدها چطور؟ از سال 1945 تا کنون، همیشه کاندیداهای قد بلندتر، برنده انتخابات بودهاند. اما به نظر میرسد که قد هیچ ربطی به ریاست جمهوری نداشته باشد. از سوی دیگر، قد، ارتباط مثبتی روی درآمد و سایر موفقیتهای اجتماعی دارد، و انتخابکنندگان، بطور عمدی یا غیرعمدی، کاندیداهای بلندتر را ترجیح میدهند.
چیدمان مدل ممکن است بازتاب دهنده جمعیت وابسته نباشد
چینش مدل[7]، مجموعه ای از دادههای تاریخی است که برای توسعه مدل دادهکاوی بکار میرود. برای اینکه تفاسیر برگرفته از چینش مدل، معتبر باشد، چیدمان مدل باید منعکس کننده جمعیتی باشد که مدل قصد تشریح، طبقه بندی یا رتبهبندی آنرا داشته است. یک مثال که جمعیت والد به خوبی منعکس نشده است، جانبداری[8] است. استفاده از یک نمونه جانبدارانه، بعنوان یک چیدمان مدل، یک دستورالعمل برای موارد آموزشیای است که درست نیستند. اجتناب از آن نیز سخت است. فرض کنید:
در انتخاب و نمونهگیری از دادهها برای مدل، بسیار دقیق باشید؛ زیرا در موفقیت دادهکاوی بسیار موثر خواهد بود.
ممکن است داده در سطح اشتباهی از جزئیات باشد
در بیشتر صنایع ما میگوییم که کارکرد در ماههای پیش از ترک مشتری، کاهش مییابد. شکل2 دقایق ماهانه استفاده از تلفن یک مشترک را نشان میدهد. در 7 ماه، مشترک در هر ماه حدود 100 دقیقه کارکرد داشته است. سپس در ماه هشتم، کارکردش نصف میشود و در ماه نهم، هیچ استفادهای نداشته است. به نظر میرسد این مشترک، با الگویی که کاهش کارکرد بمنزله رها کردن سرویس است، مطابقت دارد. ولی ظاهر این مسئله فریبنده است. اگر به جای نگاه به مصرف ماهانه مشترک به مصرف روزانه او نگاه کنیم، نشان میدهد که مشترک با نرخ ثابتی تا اواسط ماه به استفاده از سرویس ادامه میدهد و سپس استفاده او کاملا قطع میشود. احتمالا به این دلیل که در آن روزها، او از سرویس دیگری استفاده میکند. در واقع دوره مورد قبول کاهش کارکرد، وجود ندارد و یقینا یک پنجره از مجال برای نگهداری مشتری تهیه نمیکند. چه اتفاقی میافتد که یک شاخص عمده یکی را بدنبال کشد!
شکل 2- دقایق ماهانه استفاده از تلفن یک مشترک
شکل 3 مثال دیگری از گیجی ناشی از تجمیع را نشان میدهد. به نظر میرسد که فروش در ماه اکتبر به نسبت اگوست و سپتامبر سقوط کرده است. این شکل تصویر کسب و کاری را نشان میدهد که فعالیت فروش را روزانه هنگامی که بازارهای مالی باز هستند انجام میدهد. و از آنجا که در تعطیلات آخر هفته و تعطیلات رسمی، فروش ندارد و ماه اکتبر به نسبت ماههای آگوست و سپتامبر، تعطیلات بیشتری دارد پس فروش آن در این ماه سقوط کرده است. و همین حقیقت برای کاهش فروش در این ماه کافی است.
در مثال قبلی، تجمیع باعث گیجی شد. شکست تجمیع در سطح مطلوب، ممکن است باعث به اشتباه انداختن شود. در مورد دیگری، داده تهیه شده بوسیله یک موسسه خیریه، همبستگی معکوسی را بین علائق اهداکنندگان به پاسخ به درخواست های کمک و اندازه کمک آنها، پیشبینی میکند. آنها بیشتر علاقمندند به چکهای کوچک پاسخ دهند. شمار زیادی از درخواست های خیریه سالانه به پشتیبانان ارسال میشود. تصور کنید دو اهداکننده، قصد دارند 500 دلار در سال به خیریه کمک کنند. یکی از آنها تمام 500 دلار را یکباره به یک درخواست میدهد و سایر درخواست ها را دور میریزد. و یکی دیگر به 5 درخواست 100 دلار کمک میکند. ولی وقتی در سطح سالانه نگاه کنیم، هر دو به یک میزان کمک کردهاند در حالی که اهداکننده دوم بیشتر پاسخگو بوده است.
شکل3- فروش ماهانه
یادگیری چیزهایی که درست ولی بلااستفادهاند
یادگیری چیزهایی که بلااستفاده اند، اگرچه به خطرناکی یادگیری چیزهایی که نادرستند نیست، ولی بسیار رایج است.
یادگیری چیزهایی که در حال حاضر می دانیم
دادهکاوی باید اطلاعات جدیدی تولید کند. بسیاری از الگوهای قوی در داده، چیزهایی را که میدانیم، ارائه میکنند. مثلا افراد بالای سن بازنشستگی، تمایلی به پاسخ دادن به طرح های ذخیره بازنشستگی، ندارند. افرادی که در جایی زندگی میکنند که برج مخابرات ندارند، تمایلی به خرید تلفن ندارند.
قویترین الگوها، اغلب قانونهای کسب و کار را بازتاب میدهند. اگر دادهکاوی کشف کند که افرادی که امکان قطع تلفنهای نامشخص را دارند، caller ID نیز دارند، این محتمل است چون که این امکان با بستهای فروخته میشود که شامل caller ID نیز هست. ما بسیاری از این الگوهای کشف شده را در دادهکاوی می بینیم. این الگوها نه تنها مطلوب نیستند، که ممکن است قدرت آنها، الگوهای بدیهی دیگری را محو کند.
یادگیری چیزهایی که درحال حاضر می دانیم، یک هدف مفید دارد اینکه ثابت میکند که در سطح تکنیکی، تلاش دادهکاوی کار میکند و داده صحیح است. این میتواند کاملا تسلی بخش باشد. اگر داده و دادهکاوی اعمال شده بر آن به اندازه کافی قدرتمند باشد که چیزهای شناخته شده را بدرستی کشف میکند، پس این اطمینان را میدهد که سایر کشفیاتش نیز درست باشد.
یادگیری چیزهایی که نمیتوان آنها را مورد استفاده قرار داد
این زمانی اتفاق می افتد که دادهکاوی روابط پوشش داده نشدهای را که هم درستند و هم قبلا شناخته نشدهاند را کشف میکند ولی مشکل است که از آنها استفاده کرد. مثلا سابقه اعتباری یک مشتری ممکن است یک دعوی بیمه را در آینده پیش بینی کند، اما تنظیم کننده، اتخاذ تصمیم را بر مبنای آن منع کند.
دادهکاوی ممکن است خروجی های دیگری را که خارج از کنترل شرکت هستند را پیش بینی کند. ممکن است یک محصول برای یک آب و هوا مناسب تر از آب و هوای دیگری باشد، ولی سخت است که آب و هوا را کنترل کرد.
نکته: بعضی اوقات ممکن است یک تصور اشتباه باعث شود که اطلاعات جدید را بیاستفاده بدانیم. پیشبینیهای رویگردانی مشتریان ممکن است دیگر برای بکارگیری حفظ مشتریان کنونی بسیار دیر باشد، اما میتواند ما را برای یافتن راههایی برای تغییر کانال های ارتباطی مان با مشتریان آینده، ترغیب کند.
[1]Knowledge Discovery in Database
[2]Secondary Data Analysis
[3]Knowledge discovery in databases
[4] Churn Analysis
[5] Cross selling
[6]The Virtuous Cycle of Data Mining
[7] Model set
[8] biased
مبلغ قابل پرداخت 24,300 تومان