Phân tích tương quan là một trong những thành phần quan trọng trong hệ thống khai thác dữ liệu và trường hợp tiêu biểu của nó là “phân tích giỏ hàng”. Hãy lấy dữ liệu phân tích giỏ hàng do phần mềm khai thác dữ liệu Clementine cung cấp làm ví dụ để khám phá khía cạnh này từ nhiều khía cạnh.
Vấn đề chính cần giải quyết bằng phân tích tương quan là: sau khi một nhóm người dùng mua nhiều sản phẩm, sản phẩm nào có nhiều khả năng được mua cùng lúc? Sản phẩm nào có nhiều khả năng được mua cùng với sản phẩm A? Có thể do phân tích tương quan ban đầu được sử dụng rộng rãi trong các siêu thị nên còn được gọi là “phân tích giỏ hàng” và viết tắt là MBA trong tiếng Anh. Tất nhiên, MBA này không phải là MBA khác, có nghĩa là Phân tích giỏ hàng thị trường.
Nếu trong câu hỏi nghiên cứu, tất cả các sản phẩm được người dùng mua được giả định là được mua cùng một lúc, thì trọng tâm của phân tích là mối tương quan giữa các sản phẩm được tất cả người dùng mua nếu giả định rằng các sản phẩm đó đã được mua; bởi người dùng được mua vào các thời điểm khác nhau và phân tích Cần làm nổi bật mối quan hệ theo thứ tự thời gian, chẳng hạn như thứ gì được mua trước và thứ gì được mua sau? Khi đó, loại bài toán này được gọi là bài toán dãy, là trường hợp đặc biệt của bài toán tương quan. Theo một nghĩa nào đó, các bài toán về dãy cũng có thể được giải quyết dưới dạng các bài toán kết hợp.
Có ba khái niệm rất quan trọng trong phân tích tương quan, đó là “ba mức độ”: hỗ trợ, uy tín và thăng tiến. Giả sử 10.000 người mua sản phẩm, trong đó 1.000 người mua sản phẩm A, 2.000 người mua sản phẩm B và 800 người mua sản phẩm A cùng một lúc. Hỗ trợ đề cập đến tỷ lệ số người mua sản phẩm liên quan (giả sử sản phẩm A và sản phẩm B có liên quan với nhau) trên tổng số người, nghĩa là 800/10000=8% và 8% của người dùng đã mua cả hai sản phẩm A và B cùng một lúc; Độ tin cậy đề cập đến khả năng mua một sản phẩm khác sau khi mua một sản phẩm. Ví dụ: độ tin cậy của việc mua sản phẩm B sau khi mua sản phẩm A = 800/1000 = 80%. 80% người dùng mua sản phẩm A sau khi mua sản phẩm A. Sau sản phẩm, mức độ khuyến mãi sẽ được mua là tỷ lệ giữa khả năng mua sản phẩm B với điều kiện mua sản phẩm A và khả năng mua sản phẩm B mà không cần; điều kiện như vậy Khả năng mua sản phẩm B không cần điều kiện = 2000/10000 =20% thì mức độ cải thiện=80%/20%=4. (http://bai.zhihao.blog.163.com/blog/static/5652272320118953220582/)
Trường hợp phân tích tương quan kinh điển nhất là câu chuyện về bia và tã lót của Walmart:
Khi các nhà quản lý siêu thị của Wal-Mart phân tích dữ liệu bán hàng, họ phát hiện ra một hiện tượng khó hiểu: Trong một số trường hợp nhất định, hai mặt hàng dường như không liên quan đến nhau là bia và tã lót lại thường xuất hiện trong cùng một giỏ hàng. Hóa ra các ông bố trẻ khi đến siêu thị mua tã lót thường mua bia cho mình.
Wal-Mart đã phát hiện ra hiện tượng độc đáo này và bắt đầu cố gắng đặt bia và tã lót ở cùng một khu vực trong các cửa hàng của mình để các ông bố trẻ có thể tìm thấy hai mặt hàng này cùng lúc và hoàn tất việc mua sắm của họ một cách nhanh chóng. Siêu thị Wal-Mart cũng có thể cho phép những khách hàng này mua hai mặt hàng cùng một lúc thay vì một mặt hàng, do đó đạt được nhiều doanh thu bán hàng hơn. Nó tiết lộ cho chúng ta rằng các sản phẩm có liên quan với nhau. Bằng cách khám phá và tận dụng các mối quan hệ liên quan giữa các sản phẩm này, chúng ta có thể đạt được mục đích tăng doanh số bán hàng bằng cách tăng số lượng sản phẩm trong giỏ hàng mà không làm tăng đáng kể số lượng khách hàng trong cửa hàng. từ đó thu được thu nhập hoạt động lớn hơn.
Tương quan hàng hóa có nghĩa là các mặt hàng không bị cô lập trong cửa hàng. Các mặt hàng khác nhau sẽ hình thành mối quan hệ ảnh hưởng lẫn nhau trong quá trình bán hàng. Vì mối quan hệ này thường ẩn sau một số lượng lớn các nhóm hàng hóa nên chúng ta thường không thể tìm thấy nó nên còn được gọi là tương quan hàng hóa. .. "mối quan hệ yêu đương bí mật" giữa họ.
Vậy làm sao để công khai những “mối quan hệ bí mật”? Phương pháp khám phá mối quan hệ giữa các sản phẩm được gọi là phân tích giỏ hàng. Đối với ngành bán lẻ truyền thống, cần có một số phương pháp phân tích dữ liệu nhất định để phân tích giỏ hàng hóa.
Đầu tiên, chúng tôi sử dụng dữ liệu mua sắm của khách hàng được máy POS thu thập để tìm ra sản phẩm nào thường xuất hiện trong cùng một giỏ hàng. Nếu bạn nhận thấy xác suất bia và tã lót xuất hiện trong cùng một giỏ hàng là tương đối cao, bạn có thể cho rằng có mối liên hệ giữa bia và tã lót. Điều này có thể khiến người quản lý cửa hàng trưng bày bia và tã lót, hai sản phẩm dường như không tương thích với nhau hoặc gộp chúng lại với nhau để quảng cáo, để “mối quan hệ tình yêu bí mật” này có thể đóng vai trò thúc đẩy doanh số bán hàng và khiến “mối quan hệ tình yêu bí mật” trở thành hiện thực. công cộng. ("Bia và tã lót")
Dữ liệu của chúng tôi bao gồm những thứ sau:
Tóm tắt giỏ hàng:
• cardid. Mã nhận dạng thẻ khách hàng thân thiết của khách hàng đã mua giỏ hàng này.
• giá trị tổng giá mua của giỏ hàng.
• pmethod Phương thức thanh toán cho giỏ hàng.
Thông tin cá nhân của chủ thẻ:
• tình dục
• sở hữu nhà. Liệu chủ thẻ có sở hữu một ngôi nhà hay không.
• thu nhập
•tuổi
Nội dung giỏ hàng - dấu hiệu xuất hiện của danh mục sản phẩm Trong dữ liệu, T có nghĩa là đã mua và F có nghĩa là chưa mua:
• rau quả
• thịt tươi sống
•sản phẩm bơ sữa
•rau đóng hộp
•thịt đóng hộp
• bột đông lạnh
• bia
•rượu
•nước có gas
• cá
• bánh kẹo
Sử dụng chức năng ánh xạ mạng web của Clementine, bạn có thể nhận được các kết quả sau:
Sau khi điều chỉnh hiển thị cường độ mối quan hệ, có thể thu được rõ ràng ba nhóm hàng hóa, điều này có thể hiểu là người tiêu dùng mua nhiều sản phẩm hơn từ các tổ hợp nhóm, tức là họ mua sản phẩm trong cùng một nhóm cùng một lúc.
Đây là kết quả thu được khi sử dụng mô hình tương quan GRI:
Các kết quả về cơ bản phù hợp với kết quả quan sát được trong sơ đồ mạng.
Sử dụng công nghệ khai thác dữ liệu, chúng tôi cũng có thể sử dụng C5.0 và các thuật toán liên quan khác để mô hình hóa vấn đề tương tự tại thời điểm này, đồng thời tiến hành đánh giá chủ quan và xác minh độ chính xác khách quan của kết quả mô hình hóa. Đồng thời, có thể lọc ra những người tiêu dùng mua hàng của 3 nhóm sản phẩm và tiếp tục sử dụng phương pháp phân tích tương quan để xem xét tác động của các biến nhân khẩu học đến các nhóm sản phẩm, từ đó xác định nhóm người nào thích mua sản phẩm nào tại đồng thời, và cải thiện việc bán sản phẩm cung cấp hỗ trợ.
Dưới đây, chúng tôi bỏ qua tầm quan trọng thực sự của dữ liệu này và chỉ xem xét việc phân loại một số biến. Chúng tôi không còn xem xét tính phù hợp của các vấn đề thực tế và phương pháp thống kê. Chúng tôi vẫn có thể xem xét cấu trúc dữ liệu và sử dụng các phương pháp phân tích dữ liệu thống kê truyền thống. Làm thế nào để rút ra những kết luận này?
Nhập dữ liệu vào SPSS và mã hóa lại dữ liệu. T và F ban đầu được thay thế bằng số 1 và 0, vì 1 và 0 là những số có thể được vận hành và có thể tham gia vào nhiều mô hình toán học.
Kết quả phân tích liên quan:
Kết quả phân cụm:
Kết quả phân tích nhân tố:
Mọi kết luận đều rất nhất quán!