アソシエーション分析はデータマイニングシステムにおける重要な要素の一つであり、その代表的な事例が「買い物カゴ分析」である。データマイニング ソフトウェア Clementine が提供する買い物かご分析データを例として、この側面を多面的に検討してみましょう。
相関分析によって解決すべき主な問題は、ユーザーのグループが多くの製品を購入した後、どの製品が同時に購入される可能性がより高いかということです。製品 A と一緒に購入される可能性が高いのはどの製品ですか?相関分析は当初スーパーマーケットで広く使われていたためか、「買い物かご分析」、英語ではMBAとも呼ばれます。 もちろん、このMBAは、マーケットバスケット分析を意味する別のMBAではありません。
調査質問で、ユーザーが購入したすべての製品が一度に同時に購入されたと想定されている場合、分析の焦点は、すべてのユーザーが購入した製品間の相関関係になります。ユーザーが購入した商品は異なる時期に購入されており、分析では、最初に何を購入し、何を後で購入したかなど、時系列の関係を強調する必要があります。このタイプの問題は順序問題と呼ばれ、相関問題の特殊なケースです。ある意味、順序問題は連想問題の観点から操作することもできます。
相関分析には 3 つの非常に重要な概念があります。それは、「3 つの次数」、つまり支持、信頼性、昇進です。 10,000 人が製品を購入し、そのうち 1,000 人が製品 A を購入し、2,000 人が製品 B を購入し、800 人が製品 A を同時に購入するとします。サポートとは、関連商品(商品Aと商品Bが関連しているとします)を同時に購入した人の総数に対する割合、つまり800/10000=8%、ユーザーが製品 A と B の両方を同時に購入した場合、信頼性とは、ある製品を購入した後に別の製品を購入する可能性を指します。たとえば、製品 A を購入した後に製品 B を購入する信頼性 = 800/1000 = 80% となります。ユーザーの 80% は、製品 A を購入した後に製品 A を購入します。製品 A を購入した後、製品 B を購入します。プロモーション度は、製品 A を購入する条件下で製品 B を購入する可能性と、条件なしで製品 B を購入する可能性の比です。このような条件であれば、製品 B を無条件で購入できる可能性 = 2000/10000 = 20%、改善度 = 80%/20% = 4 となります。 (http://bai.zhihao.blog.163.com/blog/static/5652272320118953220582/)
相関分析の最も典型的なケースは、ウォルマートのビールとおむつの話です。
ウォルマートのスーパーマーケットのマネージャーが販売データを分析したところ、不可解な現象が発見されました。特定の状況下では、一見無関係に見える 2 つの商品、ビールとおむつが同じ買い物かごに入れられることがよくありました。若い父親がおむつを買いにスーパーに行くとき、自分用にビールを買うことが多いことが分かりました。
ウォルマートはこのユニークな現象を発見し、若い父親がこれら 2 つの商品を同時に見つけて素早く買い物を完了できるように、店内の同じ場所にビールとおむつを配置する試みを始めました。ウォルマート・スーパーマーケットは、こうした顧客が一度に 1 つではなく 2 つの商品を購入できるようにすることで、より多くの売上収益を得ることができます。これらの商品間の関連性を発見して利用することで、店内の顧客数を大幅に増やすことなく、買い物かご内の商品数を増やすことで売上を増やすという目的を達成できることがわかります。これにより、より大きな営業利益が得られます。
商品相関とは、店舗内で商品が孤立していないことを意味し、販売時に複数の商品が互いに影響し合う関係を形成するが、この関係は多数の商品グループの背後に隠れていることが多く、通常は見つけることができないため、商品相関とも呼ばれる。二人の“秘密の恋愛関係”。
では、どうすれば「秘密の関係」を公にできるのでしょうか?製品間の関係を発見する方法は、買い物かご分析と呼ばれます。従来の小売業界では、商品の買い物かごを分析するには、特定のデータ分析方法が必要です。
まず、POS マシンによって収集された顧客の買い物データを使用して、同じ買い物かごに頻繁に表示される商品を調べます。ビールとおむつが同じ買い物かごに入っている確率が比較的高いことがわかれば、ビールとおむつには関連性があると考えることができます。これにより、店長は、ビールとおむつという一見相容れない商品を一緒に陳列したり、販売促進のためにまとめて販売したりすることで、この「秘密の恋愛関係」が販売促進に一役買って、「秘密の恋愛関係」を「魅力的な商品」にすることができるのです。公共。 (「ビールとおむつ」)
私たちのデータには次のものが含まれます。
買い物かごの概要:
• Cardid この商品バスケットを購入した顧客のポイントカード ID。
• 買い物かごの合計購入価格。
• pmethod ショッピングカートの支払い方法。
カード所有者の個人情報:
• 性別
• homeown カード所有者が家を所有しているかどうか。
• 所得
• 年
買い物かごの内容 - 製品カテゴリの外観マーク。データ内の T は購入済み、F は未購入を意味します。
• フルーツ野菜
• 新鮮な肉
•乳製品
•野菜の缶詰
•缶詰肉
• 冷凍ミール
• ビール
•ワイン
•ソフトドリンク
• 魚
• 菓子類
Clementine の Web ネットワーク マッピング機能を使用すると、次の結果が得られます。
関連性の強さの表示を調整すると、明確に 3 つの商品グループが得られます。これは、消費者がグループの組み合わせからより多くの商品を購入する、つまり同じグループ内の商品を同時に購入することを意味することがわかります。
GRI 相関モデルを使用して得られた結果は次のとおりです。
結果は基本的にネットワーク図で観察されたものと一致します。
データマイニング技術を使用すると、C5.0 およびその他の関連アルゴリズムを使用して、現時点で同じ問題をモデル化し、モデル化結果の主観的な評価と客観的な精度検証を行うこともできます。同時に、3 つの製品グループの購入消費者をフィルターで除外し、相関分析手法を使用して製品グループに対する人口動態変数の影響を調査し続けることで、どのグループの人々がどの製品を購入することを好むかを判断できます。同時に製品の売上向上をサポートします。
以下では、このデータの実際の重要性を無視し、いくつかの変数の分類のみを考慮します。実際的な問題と統計手法の適合性は考慮せず、従来の統計データ分析手法を使用するだけです。これらの結論を導き出すには?
データを SPSS にインポートし、データを再コード化します。1 と 0 は演算可能な数値であり、さまざまな数学的モデリングに参加できるため、元の T と F は数値 1 と 0 に置き換えられます。
関連する分析の結果:
クラスタリングの結果:
因子分析の結果:
すべての結論は非常に一貫しています。