A análise de associação é um dos componentes importantes do sistema de mineração de dados, e seu caso representativo é a “análise do carrinho de compras”. Tomemos como exemplo os dados de análise do carrinho de compras fornecidos pelo software de mineração de dados Clementine para explorar esse aspecto sob vários aspectos.
O principal problema a ser resolvido pela análise de correlação é: depois que um grupo de usuários compra muitos produtos, quais produtos têm maior probabilidade de serem comprados ao mesmo tempo? Qual produto tem maior probabilidade de ser adquirido junto com o produto A? Talvez porque a análise de correlação tenha sido inicialmente amplamente utilizada em supermercados, ela também é chamada de “análise de cesta de compras”, ou MBA em inglês. Claro, esse MBA não é o outro MBA, que significa Análise de Cesta de Mercado.
Se na questão de pesquisa se presume que todos os produtos adquiridos por um usuário foram adquiridos ao mesmo tempo, o foco da análise é a correlação entre os produtos adquiridos por todos os usuários, se for assumido que os produtos adquiridos; por um usuário são adquiridos em momentos diferentes, e na análise é necessário destacar a relação em ordem temporal, como o que foi comprado primeiro e o que foi comprado depois? Então esse tipo de problema é chamado de problema de sequência, que é um caso especial de problema de correlação. De certo modo, os problemas de sequência também podem ser operados em termos de problemas de associação.
Existem três conceitos muito importantes na análise de correlação, que são os “três graus”: suporte, credibilidade e promoção. Suponha que 10.000 pessoas comprem produtos, das quais 1.000 pessoas comprem o produto A, 2.000 pessoas comprem o produto B e 800 pessoas comprem o produto A ao mesmo tempo. Apoio refere-se à proporção do número de pessoas que compram produtos relacionados (assumindo que o produto A e o produto B estão relacionados) ao mesmo tempo em relação ao número total de pessoas, ou seja, 800/10000=8%, e 8% de os usuários compraram os produtos A e B ao mesmo tempo. A credibilidade refere-se à possibilidade de adquirir outro produto após adquirir um produto. Por exemplo, a credibilidade de adquirir o produto B após adquirir o produto A = 800/1000 = 80%, ou seja, 80% dos usuários compram o produto A após adquirir o produto A. Após o produto, o produto B será adquirido; tais condições A possibilidade de adquirir o produto B sem quaisquer condições = 2000/10000 =20%, então o grau de melhoria=80%/20%=4. (http://bai.zhihao.blog.163.com/blog/static/5652272320118953220582/)
O caso mais clássico de análise de correlação é a história da cerveja e das fraldas do Walmart:
Quando os gestores de supermercados do Wal-Mart analisaram os dados de vendas, descobriram um fenómeno incompreensível: em determinadas circunstâncias, dois artigos aparentemente não relacionados, cerveja e fraldas, apareciam frequentemente no mesmo carrinho de compras. Acontece que quando os jovens pais vão ao supermercado comprar fraldas, muitas vezes compram cerveja para si próprios.
O Wal-Mart descobriu esse fenômeno único e começou a tentar colocar cerveja e fraldas na mesma área de suas lojas, para que os jovens pais pudessem encontrar esses dois itens ao mesmo tempo e finalizar suas compras rapidamente. O Supermercado Wal-Mart também pode permitir que esses clientes comprem dois itens por vez, em vez de um, obtendo assim mais receita de vendas. Revela-nos que os produtos estão relacionados. Ao descobrir e utilizar as relações relacionadas entre esses produtos, podemos atingir o objetivo de aumentar as vendas aumentando o número de produtos no carrinho de compras sem aumentar significativamente o número de clientes na loja. obtendo assim maior lucro operacional.
A correlação de mercadorias significa que as mercadorias não estão isoladas na loja. Diferentes mercadorias formarão uma relação de influência mútua durante as vendas. Uma vez que esta relação está frequentemente escondida atrás de um grande número de grupos de mercadorias, normalmente não a conseguimos encontrar, por isso é também chamada de correlação de mercadorias. . "relacionamento amoroso secreto" entre eles.
Então, como tornamos públicas as “relações secretas”? O método de descobrir as relações entre os produtos é chamado de análise do carrinho de compras. Para o setor varejista tradicional, para analisar a cesta de compras de mercadorias, são necessários determinados métodos de análise de dados.
Primeiro, usamos os dados de compras dos clientes coletados pelas máquinas POS para descobrir quais produtos aparecem frequentemente no mesmo carrinho de compras. Se você achar que a probabilidade de cerveja e fraldas aparecerem no mesmo carrinho de compras é relativamente alta, pode pensar que existe uma relação entre cerveja e fraldas. Isso pode levar os gerentes de loja a exibirem cerveja e fraldas, dois produtos aparentemente incompatíveis, juntos, ou agrupá-los para promoção, de modo que esse "relacionamento amoroso secreto" possa desempenhar um papel na promoção de vendas e tornar o "relacionamento amoroso secreto" "Ser público. ("Cerveja e Fraldas")
Nossos dados incluem o seguinte:
Resumo do carrinho de compras:
• cardid O identificador do cartão fidelidade do cliente que comprou esta cesta de itens.
• valor O preço total de compra do carrinho de compras.
• pmethod A forma de pagamento do carrinho de compras.
Dados pessoais do titular do cartão:
• sexo
• casa própria Se o titular do cartão possui uma casa.
• renda
• idade
Conteúdo do carrinho de compras – marca de aparecimento da categoria do produto. Nos dados, T significa comprado e F significa não comprado:
• vegetais de frutas
• carne fresca
•laticínio
• vegetais enlatados
•carne enlatada
• farinha congelada
• cerveja
•vinho
•drinque suave
• peixe
• confeitaria
Usando a função de mapeamento de rede da web do Clementine, você pode obter os seguintes resultados:
Depois de ajustar a exibição da força do relacionamento, três grupos de mercadorias podem ser obtidos claramente, o que pode ser entendido como significando que os consumidores compram mais produtos de combinações de grupos, ou seja, compram produtos dentro do mesmo grupo ao mesmo tempo.
Este é o resultado obtido através do modelo de correlação GRI:
Os resultados são basicamente consistentes com aqueles observados no diagrama de rede.
Usando a tecnologia de mineração de dados, também podemos usar C5.0 e outros algoritmos relacionados para modelar o mesmo problema neste momento e realizar avaliações subjetivas e verificação objetiva da precisão dos resultados da modelagem. Ao mesmo tempo, podemos filtrar os consumidores compradores dos três grupos de produtos e continuar a utilizar o método de análise de correlação para examinar o impacto das variáveis demográficas nos grupos de produtos, determinando assim que grupo de pessoas prefere comprar quais produtos no momento. ao mesmo tempo e melhorar as vendas de produtos.
Abaixo, ignoramos a real importância desses dados e consideramos apenas a classificação de diversas variáveis. Não consideramos mais a adequação de problemas práticos e métodos estatísticos. Ainda podemos observar a estrutura dos dados. Para tirar essas conclusões?
Importe os dados para o SPSS e recodifique os dados. O T e F originais são substituídos pelos números 1 e 0, porque 1 e 0 são números que podem ser operados e podem participar de uma variedade de modelagem matemática.
Os resultados da análise relevante:
Resultados de agrupamento:
Os resultados da análise fatorial:
Todas as conclusões são muito consistentes!