एसोसिएशन विश्लेषण डेटा माइनिंग सिस्टम में महत्वपूर्ण घटकों में से एक है, और इसका प्रतिनिधि मामला "शॉपिंग बास्केट विश्लेषण" है। आइए कई पहलुओं से इस पहलू का पता लगाने के लिए डेटा माइनिंग सॉफ़्टवेयर क्लेमेंटाइन द्वारा प्रदान किए गए शॉपिंग बास्केट विश्लेषण डेटा को एक उदाहरण के रूप में लें।
सहसंबंध विश्लेषण द्वारा हल की जाने वाली मुख्य समस्या यह है: उपयोगकर्ताओं के एक समूह द्वारा कई उत्पाद खरीदने के बाद, एक ही समय में कौन से उत्पाद खरीदे जाने की अधिक संभावना है? उत्पाद A के साथ कौन सा उत्पाद खरीदे जाने की अधिक संभावना है? शायद इसलिए कि सहसंबंध विश्लेषण शुरू में सुपरमार्केट में व्यापक रूप से उपयोग किया जाता था, इसे "शॉपिंग बास्केट विश्लेषण" या अंग्रेजी में एमबीए भी कहा जाता है, बेशक, यह एमबीए दूसरा एमबीए नहीं है, जिसका अर्थ है मार्केट बास्केट विश्लेषण।
यदि शोध प्रश्न में, किसी उपयोगकर्ता द्वारा खरीदे गए सभी उत्पादों को एक ही समय में खरीदा गया माना जाता है, तो विश्लेषण का फोकस सभी उपयोगकर्ताओं द्वारा खरीदे गए उत्पादों के बीच सहसंबंध है; किसी उपयोगकर्ता द्वारा अलग-अलग समय पर खरीदारी की जाती है, और विश्लेषण में समय क्रम में संबंध को उजागर करना आवश्यक है, जैसे कि पहले क्या खरीदा गया था, और बाद में क्या खरीदा गया था? तब इस प्रकार की समस्या को अनुक्रम समस्या कहा जाता है, जो सहसंबंध समस्या का एक विशेष मामला है। एक अर्थ में, अनुक्रम समस्याओं को एसोसिएशन समस्याओं के संदर्भ में भी संचालित किया जा सकता है।
सहसंबंध विश्लेषण में तीन बहुत महत्वपूर्ण अवधारणाएँ हैं, जो "तीन डिग्री" हैं: समर्थन, विश्वसनीयता और पदोन्नति। मान लीजिए कि 10,000 लोग उत्पाद खरीदते हैं, जिनमें से 1,000 लोग उत्पाद ए खरीदते हैं, 2,000 लोग उत्पाद बी खरीदते हैं, और 800 लोग एक ही समय में उत्पाद ए खरीदते हैं। समर्थन से तात्पर्य उन लोगों की संख्या के अनुपात से है जो एक ही समय में संबंधित उत्पाद खरीदते हैं (यह मानते हुए कि उत्पाद ए और उत्पाद बी संबंधित हैं) कुल लोगों की संख्या, यानी 800/10000=8%, और 8% उपयोगकर्ताओं ने एक ही समय में दोनों उत्पाद ए और बी खरीदे; विश्वसनीयता एक उत्पाद खरीदने के बाद दूसरे उत्पाद को खरीदने की संभावना को संदर्भित करती है, उदाहरण के लिए, उत्पाद ए = 800/1000 = 80% खरीदने के बाद उत्पाद बी खरीदने की विश्वसनीयता। 80% उपयोगकर्ता उत्पाद ए खरीदने के बाद उत्पाद ए खरीदते हैं। उत्पाद के बाद, उत्पाद बी खरीदा जाएगा; प्रचार डिग्री उत्पाद ए खरीदने की शर्त के तहत उत्पाद बी खरीदने की संभावना और बिना उत्पाद बी खरीदने की संभावना का अनुपात है ऐसी शर्तें। बिना किसी शर्त के उत्पाद बी खरीदने की संभावना = 2000/10000 =20%, फिर सुधार की डिग्री = 80%/20%=4। (http://bai.zhihao.blog.163.com/blog/static/5652272320118953220582/)
सहसंबंध विश्लेषण का सबसे क्लासिक मामला वॉलमार्ट की बीयर और डायपर की कहानी है:
जब वॉल-मार्ट के सुपरमार्केट प्रबंधकों ने बिक्री डेटा का विश्लेषण किया, तो उन्हें एक समझ से बाहर की घटना का पता चला: कुछ परिस्थितियों में, दो असंबंधित आइटम, बीयर और डायपर, अक्सर एक ही शॉपिंग टोकरी में दिखाई देंगे। यह पता चला है कि जब युवा पिता डायपर खरीदने के लिए सुपरमार्केट जाते हैं, तो वे अक्सर अपने लिए बीयर खरीदते हैं।
वॉल-मार्ट ने इस अनूठी घटना की खोज की और अपने स्टोर में एक ही क्षेत्र में बीयर और डायपर रखने की कोशिश करना शुरू कर दिया, ताकि युवा पिता एक ही समय में इन दोनों वस्तुओं को पा सकें और अपनी खरीदारी जल्दी से पूरी कर सकें। वॉल-मार्ट सुपरमार्केट इन ग्राहकों को एक के बजाय एक समय में दो आइटम खरीदने की अनुमति भी दे सकता है, जिससे अधिक बिक्री राजस्व प्राप्त होगा। इससे हमें पता चलता है कि उत्पाद संबंधित हैं। इन उत्पादों के बीच संबंधित संबंधों की खोज और उपयोग करके, हम स्टोर में ग्राहकों की संख्या में उल्लेखनीय वृद्धि किए बिना शॉपिंग बास्केट में उत्पादों की संख्या बढ़ाकर बिक्री बढ़ाने के उद्देश्य को प्राप्त कर सकते हैं। जिससे अधिक परिचालन आय प्राप्त हो सके।
कमोडिटी सहसंबंध का अर्थ है कि वस्तुओं को स्टोर में अलग-थलग नहीं किया जाता है। बिक्री के दौरान विभिन्न वस्तुएं एक पारस्परिक प्रभाव संबंध बनाती हैं। चूंकि यह संबंध अक्सर बड़ी संख्या में कमोडिटी समूहों के पीछे छिपा होता है, इसलिए हम इसे आमतौर पर नहीं पा सकते हैं, इसलिए इसे कमोडिटी सहसंबंध भी कहा जाता है उनके बीच "गुप्त प्रेम संबंध"।
तो हम "गुप्त रिश्तों" को सार्वजनिक कैसे करें? उत्पादों के बीच संबंधों की खोज करने की विधि को शॉपिंग बास्केट विश्लेषण कहा जाता है। पारंपरिक खुदरा उद्योग के लिए, माल की खरीदारी टोकरी का विश्लेषण करने के लिए, कुछ डेटा विश्लेषण विधियों की आवश्यकता होती है।
सबसे पहले, हम यह पता लगाने के लिए पीओएस मशीनों द्वारा एकत्र किए गए ग्राहक खरीदारी डेटा का उपयोग करते हैं कि कौन से उत्पाद अक्सर एक ही शॉपिंग बास्केट में दिखाई देते हैं। यदि आप पाते हैं कि बीयर और डायपर के एक ही शॉपिंग बास्केट में दिखने की संभावना अपेक्षाकृत अधिक है, तो आप सोच सकते हैं कि बीयर और डायपर के बीच कोई संबंध है। यह स्टोर प्रबंधकों को बीयर और डायपर, दो प्रतीत होने वाले असंगत उत्पादों को एक साथ प्रदर्शित करने, या प्रचार के लिए उन्हें एक साथ बंडल करने के लिए प्रेरित कर सकता है, ताकि यह "गुप्त प्रेम संबंध" बिक्री को बढ़ावा देने में भूमिका निभा सके और "गुप्त प्रेम संबंध" बना सके। जनता। ("बीयर और डायपर")
हमारे डेटा में ये चीज़ें शामिल हैं:
शॉपिंग टोकरी सारांश:
• कार्डिड। उस ग्राहक का लॉयल्टी कार्ड पहचानकर्ता जिसने वस्तुओं की यह टोकरी खरीदी है।
• मूल्य. शॉपिंग टोकरी का कुल खरीद मूल्य.
• pmethod. शॉपिंग बास्केट के लिए भुगतान विधि.
कार्ड धारक का व्यक्तिगत विवरण:
• लिंग
• गृहस्वामी। क्या कार्ड धारक के पास घर है।
• आय
• आयु
शॉपिंग बास्केट सामग्री - डेटा में उत्पाद श्रेणी का उपस्थिति चिह्न, T का अर्थ है खरीदा गया और F का अर्थ है खरीदा नहीं गया:
• फलसब्जी
• ताजा मांस
•डेरी
• डिब्बाबंद सब्जी
•डिब्बाबंद मांस
• जमे हुए भोजन
• बियर
•शराब
•शीतल पेय
• मछली
• हलवाई की दुकान
क्लेमेंटाइन के वेब नेटवर्क मैपिंग फ़ंक्शन का उपयोग करके, आप निम्नलिखित परिणाम प्राप्त कर सकते हैं:
संबंध शक्ति प्रदर्शन को समायोजित करने के बाद, तीन कमोडिटी समूह स्पष्ट रूप से प्राप्त किए जा सकते हैं, जिसका अर्थ यह समझा जा सकता है कि उपभोक्ता समूह संयोजनों से अधिक उत्पाद खरीदते हैं, अर्थात वे एक ही समय में एक ही समूह के भीतर उत्पाद खरीदते हैं।
यह जीआरआई सहसंबंध मॉडल का उपयोग करके प्राप्त परिणाम है:
परिणाम मूल रूप से नेटवर्क आरेख में देखे गए परिणामों के अनुरूप हैं।
डेटा माइनिंग तकनीक का उपयोग करके, हम इस समय उसी समस्या को मॉडल करने के लिए C5.0 और अन्य संबंधित एल्गोरिदम का भी उपयोग कर सकते हैं, और मॉडलिंग परिणामों का व्यक्तिपरक मूल्यांकन और वस्तुनिष्ठ सटीकता सत्यापन कर सकते हैं। साथ ही, हम तीन उत्पाद समूहों के क्रय उपभोक्ताओं को फ़िल्टर कर सकते हैं और उत्पाद समूहों पर जनसांख्यिकीय चर के प्रभाव की जांच करने के लिए सहसंबंध विश्लेषण पद्धति का उपयोग करना जारी रख सकते हैं, जिससे यह निर्धारित किया जा सके कि लोगों का कौन सा समूह कौन से उत्पाद खरीदना पसंद करता है। एक ही समय में, और उत्पाद की बिक्री में सुधार करें।
नीचे, हम इस डेटा के वास्तविक महत्व को नजरअंदाज करते हैं और केवल कई चर के वर्गीकरण पर विचार करते हैं। हम अब केवल डेटा संरचना को देखते हैं और पारंपरिक सांख्यिकीय डेटा विश्लेषण विधियों का उपयोग करते हैं ये निष्कर्ष निकालने के लिए?
डेटा को एसपीएसएस में आयात करें और डेटा को दोबारा कोड करें। मूल टी और एफ को संख्या 1 और 0 से बदल दिया जाता है, क्योंकि 1 और 0 ऐसी संख्याएं हैं जिन पर काम किया जा सकता है और विभिन्न गणितीय मॉडलिंग में भाग ले सकते हैं।
प्रासंगिक विश्लेषण के परिणाम:
क्लस्टरिंग परिणाम:
कारक विश्लेषण के परिणाम:
सभी निष्कर्ष बहुत सुसंगत हैं!