L'analisi associativa è una delle componenti importanti del sistema di data mining e il suo caso rappresentativo è l'analisi del carrello della spesa. Prendiamo come esempio i dati di analisi del carrello forniti dal software di data mining Clementine per esplorare questo aspetto da molteplici aspetti.
Il problema principale da risolvere mediante l’analisi di correlazione è: dopo che un gruppo di utenti ha acquistato molti prodotti, quali prodotti hanno maggiori probabilità di essere acquistati contemporaneamente? Quale prodotto ha maggiori probabilità di essere acquistato insieme al prodotto A? Forse perché inizialmente l'analisi di correlazione era ampiamente utilizzata nei supermercati, è anche chiamata "analisi del paniere della spesa", o MBA in inglese. Naturalmente, questo MBA non è l'altro MBA, che significa Market Basket Analysis.
Se nella domanda di ricerca si presuppone che tutti i prodotti acquistati da un utente vengano acquistati contemporaneamente, il focus dell'analisi è la correlazione tra i prodotti acquistati da tutti gli utenti se si presuppone che i prodotti acquistati da un utente vengono acquistati in momenti diversi, e l'analisi è necessaria per evidenziare la relazione in ordine temporale, ad esempio cosa è stato comprato prima, e cosa è stato comprato dopo? Quindi questo tipo di problema è chiamato problema di sequenza, che è un caso speciale di problema di correlazione. In un certo senso, i problemi di sequenza possono essere gestiti anche in termini di problemi di associazione.
Ci sono tre concetti molto importanti nell'analisi delle correlazioni, che sono i "tre gradi": supporto, credibilità e promozione. Supponiamo che 10.000 persone acquistino prodotti, di cui 1.000 persone acquistano il prodotto A, 2.000 persone acquistano il prodotto B e 800 persone acquistano il prodotto A contemporaneamente. Il sostegno si riferisce alla proporzione del numero di persone che acquistano prodotti correlati (assumendo che il prodotto A e il prodotto B siano correlati) contemporaneamente rispetto al numero totale di persone, ovvero 800/10000=8% e 8% di gli utenti hanno acquistato entrambi i prodotti A e B contemporaneamente; la credibilità si riferisce alla possibilità di acquistare un altro prodotto dopo aver acquistato un prodotto. Ad esempio, la credibilità di acquistare il prodotto B dopo aver acquistato il prodotto A = 800/1000 = 80%, ovvero. L'80% degli utenti acquista il prodotto A dopo aver acquistato il prodotto A. Dopo il prodotto, verrà acquistato il prodotto B, il grado di promozione è il rapporto tra la possibilità di acquistare il prodotto B a condizione di acquistare il prodotto A e la possibilità di acquistare il prodotto B senza tali condizioni La possibilità di acquistare il prodotto B senza alcuna condizione = 2000/10000 =20%, quindi il grado di miglioramento=80%/20%=4. (http://bai.zhihao.blog.163.com/blog/static/5652272320118953220582/)
Il caso più classico di analisi di correlazione è la storia della birra e dei pannolini di Walmart:
Analizzando i dati di vendita, i gestori dei supermercati Wal-Mart hanno scoperto un fenomeno incomprensibile: in determinate circostanze, due articoli apparentemente non correlati, birra e pannolini, compaiono spesso nello stesso carrello. Si scopre che quando i giovani padri vanno al supermercato per comprare i pannolini, spesso si comprano la birra.
Wal-Mart ha scoperto questo fenomeno unico e ha iniziato a provare a collocare birra e pannolini nello stesso spazio nei suoi negozi, in modo che i giovani padri possano trovare questi due articoli contemporaneamente e completare rapidamente la spesa. Il supermercato Wal-Mart può anche consentire a questi clienti di acquistare due articoli alla volta invece di uno, ottenendo così maggiori ricavi dalle vendite. Ci rivela che i prodotti sono correlati. Scoprendo e utilizzando le relazioni correlate tra questi prodotti, possiamo raggiungere lo scopo di aumentare le vendite aumentando il numero di prodotti nel carrello senza aumentare in modo significativo il numero di clienti nel negozio. ottenendo così maggiori proventi operativi.
Correlazione delle merci significa che le merci non sono isolate nel negozio. Diverse merci formeranno una relazione di influenza reciproca durante le vendite Poiché questa relazione è spesso nascosta dietro un gran numero di gruppi di merci, di solito non possiamo trovarla, per questo viene anche chiamata correlazione delle merci "relazione d'amore segreta" tra loro.
Allora come possiamo rendere pubbliche le "relazioni segrete"? Il metodo per scoprire le relazioni tra i prodotti è chiamato analisi del carrello della spesa. Per il settore della vendita al dettaglio tradizionale, per analizzare il paniere di beni, sono necessari alcuni metodi di analisi dei dati.
Innanzitutto, utilizziamo i dati di acquisto dei clienti raccolti dai POS per scoprire quali prodotti compaiono spesso nello stesso carrello. Se scopri che la probabilità che birra e pannolini compaiano nello stesso carrello della spesa è relativamente alta, puoi pensare che esista una relazione tra birra e pannolini. Ciò può spingere i gestori dei negozi a esporre insieme birra e pannolini, due prodotti apparentemente incompatibili, o a raggrupparli insieme per la promozione, in modo che questa "relazione d'amore segreta" possa svolgere un ruolo nel promuovere le vendite e rendere la "relazione d'amore segreta" "Be pubblico. ("Birra e pannolini")
I nostri dati includono queste cose:
Riepilogo del carrello:
• cardid L'identificativo della carta fedeltà del cliente che ha acquistato questo paniere di articoli.
• valore. Il prezzo d'acquisto totale del carrello.
• metodo. Il metodo di pagamento del carrello.
Dati personali del titolare della carta:
• sesso
• casa propria Se il titolare della carta possiede una casa.
• reddito
• età
Contenuto del carrello: il segno distintivo della categoria di prodotto Nei dati, T significa acquistato e F significa non acquistato:
• frutta e verdura
• carne fresca
•latticini
• verdure in scatola
•carne in scatola
• farina congelata
• birra
•vino
•bevanda analcolica
• pescare
• dolciumi
Utilizzando la funzione di mappatura della rete web di Clementine, puoi ottenere i seguenti risultati:
Dopo aver modificato la visualizzazione della forza della relazione, si possono ottenere chiaramente tre gruppi di prodotti, il che può essere inteso nel senso che i consumatori acquistano più prodotti da combinazioni di gruppi, ovvero acquistano prodotti all'interno dello stesso gruppo allo stesso tempo.
Questo è il risultato ottenuto utilizzando il modello di correlazione GRI:
I risultati sono sostanzialmente coerenti con quelli osservati nel diagramma reticolare.
Utilizzando la tecnologia di data mining, possiamo anche utilizzare C5.0 e altri algoritmi correlati per modellare lo stesso problema in questo momento e condurre una valutazione soggettiva e una verifica oggettiva dell'accuratezza dei risultati della modellazione. Allo stesso tempo, possiamo filtrare i consumatori acquirenti dei tre gruppi di prodotti e continuare a utilizzare il metodo dell’analisi di correlazione per esaminare l’impatto delle variabili demografiche sui gruppi di prodotti, determinando così quale gruppo di persone preferisce acquistare quali prodotti al momento. allo stesso tempo e migliorare le vendite dei prodotti fornire supporto.
Di seguito, ignoriamo il significato reale di questi dati e consideriamo solo la classificazione di diverse variabili. Non consideriamo più l'idoneità dei problemi pratici e dei metodi statistici. Possiamo ancora guardare solo la struttura dei dati e utilizzare i tradizionali metodi di analisi statistica dei dati Per trarre queste conclusioni?
Importare i dati in SPSS e ricodificarli. I valori T e F originali vengono sostituiti con i numeri 1 e 0, poiché 1 e 0 sono numeri su cui è possibile operare e possono partecipare a una varietà di modelli matematici.
I risultati dell’analisi pertinente:
Risultati del clustering:
I risultati dell’analisi fattoriale:
Tutte le conclusioni sono molto coerenti!