L'analyse de corrélation est l'un des composants importants du système d'exploration de données, et son cas représentatif est « l'analyse du panier ». Prenons comme exemple les données d'analyse du panier fournies par le logiciel de data mining Clementine pour explorer cet aspect sous plusieurs aspects.

Le principal problème à résoudre par l’analyse de corrélation est le suivant : après qu’un groupe d’utilisateurs achète de nombreux produits, quels produits sont les plus susceptibles d’être achetés en même temps ? Quel produit est le plus susceptible d’être acheté avec le produit A ? C'est peut-être parce que l'analyse de corrélation était initialement largement utilisée dans les supermarchés, c'est pourquoi elle est également appelée « analyse du panier » et est abrégée en MBA en anglais. Bien entendu, ce MBA n'est pas l'autre MBA, ce qui signifie Market Basket Analysis.

Si dans la question de recherche, tous les produits achetés par un utilisateur sont supposés avoir été achetés en même temps, l'analyse se concentre sur la corrélation entre les produits achetés par tous les utilisateurs ; par un utilisateur sont achetés à des moments différents, et l'analyse Il est nécessaire de mettre en évidence la relation dans l'ordre temporel, par exemple ce qui a été acheté en premier et ce qui a été acheté plus tard ? Ce type de problème est alors appelé problème de séquence, qui est un cas particulier de problème de corrélation. Dans un sens, les problèmes de séquence peuvent également être exploités en termes de problèmes d’association.

Il existe trois concepts très importants dans l’analyse de corrélation, qui sont les « trois degrés » : soutien, crédibilité et promotion. Supposons que 10 000 personnes achètent des produits, dont 1 000 personnes achètent le produit A, 2 000 personnes achètent le produit B et 800 personnes achètent le produit A en même temps. Le support fait référence à la proportion du nombre de personnes qui achètent des produits connexes (en supposant que le produit A et le produit B sont liés) en même temps par rapport au nombre total de personnes, c'est-à-dire 800/10 000 = 8 % et 8 % de les utilisateurs ont acheté les produits A et B en même temps ; la crédibilité fait référence à la possibilité d'acheter un autre produit après avoir acheté un produit. Par exemple, la crédibilité d'acheter le produit B après l'achat du produit A = 800/1000 = 80 %. 80 % des utilisateurs achètent le produit A après avoir acheté le produit A. Après l'achat du produit, le produit B sera acheté ; le degré de promotion est le rapport entre la possibilité d'acheter le produit B sous la condition d'acheter le produit A et la possibilité d'acheter le produit B sans de telles conditions. La possibilité d'acheter le produit B sans aucune condition = 2000/10000 = 20 %, puis le degré d'amélioration = 80 %/20 % = 4. (http://bai.zhihao.blog.163.com/blog/static/5652272320118953220582/)

Le cas le plus classique d’analyse de corrélation est l’histoire de la bière et des couches de Walmart :

Lorsque les directeurs des supermarchés Wal-Mart ont analysé les données de ventes, ils ont découvert un phénomène incompréhensible : dans certaines circonstances, deux articles apparemment sans rapport, la bière et les couches, apparaissaient souvent dans le même panier. Il s’avère que lorsque les jeunes pères vont au supermarché pour acheter des couches, ils achètent souvent de la bière pour eux-mêmes.

Wal-Mart a découvert ce phénomène unique et a commencé à essayer de placer la bière et les couches dans la même zone de ses magasins, afin que les jeunes pères puissent trouver ces deux articles en même temps et terminer leurs achats rapidement. Wal-Mart Supermarket peut également permettre à ces clients d'acheter deux articles à la fois au lieu d'un, gagnant ainsi plus de revenus de vente. Cela nous révèle que les produits sont liés. En découvrant et en utilisant les relations entre ces produits, nous pouvons atteindre l'objectif d'augmenter les ventes en augmentant le nombre de produits dans le panier sans augmenter de manière significative le nombre de clients dans le magasin. obtenant ainsi un résultat d’exploitation plus important.

La corrélation des produits signifie que les produits ne sont pas isolés dans le magasin. Différents produits formeront une relation d'influence mutuelle au cours des ventes. Étant donné que cette relation est souvent cachée derrière un grand nombre de groupes de produits, nous ne pouvons généralement pas la trouver, c'est pourquoi on l'appelle également corrélation des produits. . "relation amoureuse secrète" entre eux.

Alors, comment rendre publiques les « relations secrètes » ? La méthode permettant de découvrir les relations entre les produits est appelée analyse du panier. Pour le secteur de la vente au détail traditionnel, afin d'analyser le panier de produits, certaines méthodes d'analyse des données sont nécessaires.

Premièrement, nous utilisons les données d'achat des clients collectées par les machines POS pour déterminer quels produits apparaissent souvent dans le même panier. Si vous constatez que la probabilité que de la bière et des couches apparaissent dans le même panier est relativement élevée, vous pouvez penser qu'il existe une relation entre la bière et les couches. Cela peut inciter les gérants de magasin à présenter ensemble de la bière et des couches, deux produits apparemment incompatibles, ou à les regrouper pour la promotion, afin que cette « relation amoureuse secrète » puisse jouer un rôle dans la promotion des ventes et faire en sorte que la « relation amoureuse secrète » soit « publique. ("Bière et couches")

Nos données incluent ces éléments :

Récapitulatif du panier :

• cardid L'identifiant de la carte de fidélité du client ayant acheté ce panier d'articles.

• valeur Le prix d'achat total du panier.

• pmethod. Le mode de paiement du panier.

Données personnelles du titulaire de la carte :

• le sexe

• propriétaire d'une maison. Indique si le titulaire de la carte est propriétaire d'une maison.

• revenu

• âge

Contenu du panier - la marque d'apparence de la catégorie de produit Dans les données, T signifie acheté et F signifie non acheté :

• des légumes-fruits

• viande fraîche

•laitier

• légumes en conserve

•viande en conserve

• Repas congelé

• bière

•vin

•boisson non-alcoolisée

• poisson

• confiserie

En utilisant la fonction de cartographie du réseau Web de Clementine, vous pouvez obtenir les résultats suivants :

image.png

Après avoir ajusté l'affichage de la force de la relation, trois groupes de produits peuvent être clairement obtenus, ce qui peut être compris comme signifiant que les consommateurs achètent plus de produits à partir de combinaisons de groupes, c'est-à-dire qu'ils achètent des produits au sein du même groupe en même temps.

Voici le résultat obtenu à l’aide du modèle de corrélation GRI :

image.png

Les résultats sont fondamentalement cohérents avec ceux observés dans le diagramme de réseau.

Grâce à la technologie d'exploration de données, nous pouvons également utiliser C5.0 et d'autres algorithmes associés pour modéliser le même problème à ce stade, et effectuer une évaluation subjective et une vérification objective de l'exactitude des résultats de la modélisation. Dans le même temps, nous pouvons filtrer les consommateurs acheteurs des trois groupes de produits et continuer à utiliser la méthode d'analyse de corrélation pour examiner l'impact des variables démographiques sur les groupes de produits, déterminant ainsi quel groupe de personnes préfère acheter quels produits au niveau en même temps et améliorer les ventes de produits.

Ci-dessous, nous ignorons la signification réelle de ces données et considérons uniquement la classification de plusieurs variables. Nous ne considérons plus l'adéquation des problèmes pratiques et des méthodes statistiques. Nous examinons uniquement la structure des données et utilisons les méthodes traditionnelles d'analyse des données statistiques. Pour tirer ces conclusions ?

Importez les données dans SPSS et recodez les données. Les T et F d'origine sont remplacés par les nombres 1 et 0, car 1 et 0 sont des nombres sur lesquels on peut opérer et qui peuvent participer à diverses modélisations mathématiques.

Les résultats d’une analyse pertinente :

Résultats du regroupement :

Les résultats de l’analyse factorielle :

Toutes les conclusions sont très cohérentes !


Laisser une réponse