يعد تحليل الارتباط أحد المكونات المهمة في نظام استخراج البيانات، وحالته التمثيلية هي "تحليل سلة التسوق". لنأخذ بيانات تحليل سلة التسوق المقدمة من برنامج استخراج البيانات Clementine كمثال لاستكشاف هذا الجانب من جوانب متعددة.

المشكلة الرئيسية التي يجب حلها عن طريق تحليل الارتباط هي: بعد قيام مجموعة من المستخدمين بشراء العديد من المنتجات، ما هي المنتجات التي من المرجح أن يتم شراؤها في نفس الوقت؟ ما المنتج الذي من المرجح أن يتم شراؤه مع المنتج أ؟ ربما لأن تحليل الارتباط كان يستخدم على نطاق واسع في البداية في محلات السوبر ماركت، ويسمى أيضًا "تحليل سلة التسوق"، أو ماجستير إدارة الأعمال باللغة الإنجليزية بالطبع، ماجستير إدارة الأعمال هذا ليس ماجستير إدارة الأعمال الآخر، وهو ما يعني تحليل سلة السوق.

إذا كان من المفترض في سؤال البحث أن يتم شراء جميع المنتجات التي اشتراها المستخدم في وقت واحد في نفس الوقت، فإن تركيز التحليل هو الارتباط بين المنتجات التي تم شراؤها من قبل جميع المستخدمين إذا تم افتراض أن المنتجات التي تم شراؤها يتم شراؤها من قبل المستخدم في أوقات مختلفة، ومن الضروري التحليل تسليط الضوء على العلاقة بالترتيب الزمني، مثل ما تم شراؤه أولاً، وما تم شراؤه لاحقًا؟ ثم يسمى هذا النوع من المشاكل بمشكلة التسلسل، وهي حالة خاصة من مشكلة الارتباط. بمعنى ما، يمكن أيضًا تشغيل مشكلات التسلسل من حيث مشكلات الارتباط.

هناك ثلاثة مفاهيم مهمة جدًا في تحليل الارتباط، وهي "الدرجات الثلاث": الدعم، والمصداقية، والترويج. لنفترض أن 10000 شخص يشترون منتجات، منهم 1000 شخص يشترون المنتج أ، و2000 شخص يشترون المنتج ب، و800 شخص يشترون المنتج أ في نفس الوقت. يشير الدعم إلى نسبة عدد الأشخاص الذين يشترون المنتجات ذات الصلة (بافتراض أن المنتج أ والمنتج ب مرتبطان) في نفس الوقت إلى إجمالي عدد الأشخاص، أي 800/10000 = 8%، و8% من قام المستخدمون بشراء كلا المنتجين (أ) و (ب) في نفس الوقت؛ تشير المصداقية إلى إمكانية شراء منتج آخر بعد شراء منتج واحد، على سبيل المثال، مصداقية شراء المنتج (ب) بعد شراء المنتج (أ) = 800/1000 = 80%. 80% من المستخدمين يشترون المنتج (أ) بعد شراء المنتج (أ). بعد المنتج، سيتم شراء المنتج (ب) درجة الترويج هي نسبة إمكانية شراء المنتج (ب) بشرط شراء المنتج (أ) إلى إمكانية شراء المنتج (ب) بدونه مثل هذه الشروط إمكانية شراء المنتج ب بدون أية شروط = 2000/10000 =20% فدرجة التحسن=80%/20%=4. (http://bai.zhihao.blog.163.com/blog/static/5652272320118953220582/)

الحالة الأكثر كلاسيكية لتحليل الارتباط هي قصة البيرة وحفاضات وول مارت:

عندما قام مديرو المتاجر الكبرى في وول مارت بتحليل بيانات المبيعات، اكتشفوا ظاهرة غير مفهومة: في ظل ظروف معينة، غالبا ما يظهر عنصران لا علاقة لهما ظاهريا، البيرة وحفاضات الأطفال، في نفس سلة التسوق. اتضح أنه عندما يذهب الآباء الصغار إلى السوبر ماركت لشراء الحفاضات، فإنهم غالبًا ما يشترون البيرة لأنفسهم.

اكتشفت وول مارت هذه الظاهرة الفريدة وبدأت في محاولة وضع البيرة والحفاضات في نفس المنطقة في متاجرها، حتى يتمكن الآباء الشباب من العثور على هذين العنصرين في نفس الوقت واستكمال تسوقهم بسرعة. يمكن لسوبر ماركت وول مارت أيضًا أن يسمح لهؤلاء العملاء بشراء عنصرين في وقت واحد بدلاً من عنصر واحد، وبالتالي الحصول على المزيد من إيرادات المبيعات. يكشف لنا أن المنتجات مرتبطة ببعضها البعض، ومن خلال اكتشاف العلاقات المترابطة بين هذه المنتجات والاستفادة منها، يمكننا تحقيق غرض زيادة المبيعات من خلال زيادة عدد المنتجات في سلة التسوق دون زيادة عدد العملاء في المتجر بشكل كبير. وبالتالي الحصول على دخل تشغيلي أكبر.

ويعني الارتباط السلعي أن السلع ليست معزولة في المتجر، حيث ستشكل السلع المختلفة علاقة تأثير متبادلة أثناء عمليات البيع، وبما أن هذه العلاقة غالبًا ما تكون مخفية خلف عدد كبير من مجموعات السلع، فلا يمكننا عادةً العثور عليها، لذلك يطلق عليها أيضًا اسم الارتباط السلعي "علاقة حب سرية" بينهما.

فكيف نجعل "العلاقات السرية" علنية؟ تسمى طريقة اكتشاف العلاقات بين المنتجات بتحليل سلة التسوق. بالنسبة لصناعة التجزئة التقليدية، من أجل تحليل سلة التسوق من السلع، هناك حاجة إلى طرق معينة لتحليل البيانات.

أولاً، نستخدم بيانات تسوق العملاء التي تم جمعها بواسطة أجهزة نقاط البيع لمعرفة المنتجات التي تظهر غالبًا في نفس سلة التسوق. إذا وجدت أن احتمال ظهور البيرة والحفاضات في نفس سلة التسوق مرتفع نسبيًا، فيمكنك الاعتقاد بأن هناك علاقة بين البيرة والحفاضات. يمكن أن يدفع ذلك مديري المتاجر إلى عرض البيرة والحفاضات، وهما منتجان يبدوان غير متوافقين، معًا، أو تجميعهما معًا للترويج، بحيث يمكن أن تلعب "علاقة الحب السرية" هذه دورًا في ترويج المبيعات وجعل "علاقة الحب السرية" "تكون عام. ("البيرة والحفاضات")

تتضمن بياناتنا هذه الأشياء:

ملخص سلة التسوق:

• Cardid معرف بطاقة الولاء للعميل الذي قام بشراء سلة العناصر هذه.

• القيمة إجمالي سعر شراء سلة التسوق.

• طريقة الدفع لسلة التسوق.

التفاصيل الشخصية لحامل البطاقة:

• الجنس

• ملكية المنزل ما إذا كان حامل البطاقة يمتلك منزلاً.

• دخل

• عمر

محتوى سلة التسوق - علامة الظهور لفئة المنتج في البيانات، تعني T تم شراؤها وF تعني لم يتم شراؤها:

• خضار الفاكهة

• لحم طازج

•ألبان

• الخضار المعلبة

•اللحوم المعلبة

• وجبة المجمدة

• جعة

•خمر

•مشروب غازي

• سمكة

• الحلويات

باستخدام وظيفة تعيين شبكة الويب الخاصة بـ Clementine، يمكنك الحصول على النتائج التالية:

image.png

بعد ضبط عرض قوة العلاقة، يمكن الحصول بوضوح على ثلاث مجموعات سلعية، وهو ما يمكن فهمه على أنه يعني أن المستهلكين يشترون المزيد من المنتجات من مجموعات المجموعات، أي أنهم يشترون منتجات داخل نفس المجموعة في نفس الوقت.

هذه هي النتيجة التي تم الحصول عليها باستخدام نموذج الارتباط GRI:

image.png

تتوافق النتائج بشكل أساسي مع تلك التي لوحظت في مخطط الشبكة.

باستخدام تقنية استخراج البيانات، يمكننا أيضًا استخدام C5.0 والخوارزميات الأخرى ذات الصلة لنمذجة نفس المشكلة في هذا الوقت، وإجراء تقييم شخصي والتحقق من الدقة الموضوعية لنتائج النمذجة. وفي الوقت نفسه، يمكننا تصفية المستهلكين الشرائيين لمجموعات المنتجات الثلاثة والاستمرار في استخدام طريقة تحليل الارتباط لفحص تأثير المتغيرات الديموغرافية على مجموعات المنتجات، وبالتالي تحديد أي مجموعة من الأشخاص تفضل شراء أي منتجات في نفس الوقت. في نفس الوقت، وتحسين مبيعات المنتجات وتقديم الدعم.

أدناه، نتجاهل الأهمية الفعلية لهذه البيانات وننظر فقط في تصنيف العديد من المتغيرات، ولم نعد نفكر في مدى ملاءمة المشكلات العملية والأساليب الإحصائية، فنحن ننظر فقط إلى بنية البيانات ونستخدم أساليب تحليل البيانات الإحصائية التقليدية لاستخلاص هذه الاستنتاجات؟

قم باستيراد البيانات إلى SPSS وإعادة ترميز البيانات، ويتم استبدال T وF الأصليين بالأرقام 1 و0، لأن 1 و0 هما رقمان يمكن التشغيل عليهما ويمكنهما المشاركة في مجموعة متنوعة من النماذج الرياضية.

نتائج التحليل ذات الصلة:

نتائج التجميع:

نتائج التحليل العاملي:

جميع الاستنتاجات متسقة للغاية!


اترك رد