Die Assoziationsanalyse ist eine der wichtigen Komponenten im Data-Mining-System und ihr repräsentativer Fall ist die „Warenkorbanalyse“. Nehmen wir als Beispiel die von der Data-Mining-Software Clementine bereitgestellten Warenkorbanalysedaten, um diesen Aspekt aus mehreren Aspekten zu untersuchen.

Das Hauptproblem, das durch Korrelationsanalyse gelöst werden muss, ist: Welche Produkte werden mit größerer Wahrscheinlichkeit gleichzeitig gekauft, nachdem eine Gruppe von Benutzern viele Produkte gekauft hat? Welches Produkt wird eher zusammen mit Produkt A gekauft? Vielleicht weil die Korrelationsanalyse ursprünglich in Supermärkten weit verbreitet war, wird sie auch „Warenkorbanalyse“ oder auf Englisch MBA genannt. Natürlich ist dieser MBA nicht der andere MBA, der „Warenkorbanalyse“ bedeutet.

Wenn in der Forschungsfrage davon ausgegangen wird, dass alle von einem Benutzer gekauften Produkte gleichzeitig gekauft werden, liegt der Schwerpunkt der Analyse auf der Korrelation zwischen den von allen Benutzern gekauften Produkten Ein Benutzer kauft zu unterschiedlichen Zeiten und in der Analyse muss die Beziehung in zeitlicher Reihenfolge hervorgehoben werden, z. B. was wurde zuerst gekauft und was wurde später gekauft? Dann wird diese Art von Problem als Sequenzproblem bezeichnet und ist ein Sonderfall des Korrelationsproblems. In gewissem Sinne können Sequenzprobleme auch im Sinne von Assoziationsproblemen behandelt werden.

In der Korrelationsanalyse gibt es drei sehr wichtige Konzepte, die „drei Grade“: Unterstützung, Glaubwürdigkeit und Förderung. Angenommen, 10.000 Menschen kaufen Produkte, davon kaufen 1.000 Menschen Produkt A, 2.000 Menschen kaufen Produkt B und 800 Menschen kaufen gleichzeitig Produkt A. Unterstützung bezieht sich auf den Anteil der Anzahl der Personen, die gleichzeitig verwandte Produkte kaufen (vorausgesetzt, dass Produkt A und Produkt B verwandt sind), an der Gesamtzahl der Personen, d. h. 800/10.000 = 8 %, und 8 % davon Benutzer haben beide Produkte A und B gleichzeitig gekauft; Glaubwürdigkeit bezieht sich auf die Möglichkeit, nach dem Kauf eines Produkts ein weiteres Produkt zu kaufen. Beispielsweise ist die Glaubwürdigkeit des Kaufs von Produkt B nach dem Kauf von Produkt A = 800/1000 = 80 %, d. h. 80 % der Benutzer kaufen Produkt A, nachdem sie Produkt A gekauft haben. Nach dem Kauf von Produkt wird Produkt B gekauft Solche Bedingungen: Die Möglichkeit, Produkt B ohne Bedingungen zu kaufen = 2000/10000 = 20 %, dann ist der Verbesserungsgrad = 80 %/20 % = 4. (http://bai.zhihao.blog.163.com/blog/static/5652272320118953220582/)

Der klassischste Fall einer Korrelationsanalyse ist die Geschichte von Walmarts Bier und Windeln:

Als die Supermarktmanager von Wal-Mart Verkaufsdaten analysierten, entdeckten sie ein unverständliches Phänomen: Unter bestimmten Umständen erschienen oft zwei scheinbar unabhängige Artikel, Bier und Windeln, im selben Warenkorb. Es stellt sich heraus, dass junge Väter, wenn sie in den Supermarkt gehen, um Windeln zu kaufen, oft Bier für sich selbst kaufen.

Wal-Mart entdeckte dieses einzigartige Phänomen und begann zu versuchen, Bier und Windeln in seinen Filialen an derselben Stelle zu platzieren, damit junge Väter diese beiden Artikel gleichzeitig finden und ihren Einkauf schnell abschließen können. Wal-Mart Supermarket kann diesen Kunden auch ermöglichen, zwei Artikel statt nur einen auf einmal zu kaufen und so mehr Umsatz zu erzielen. Es zeigt uns, dass Produkte miteinander verbunden sind und wir die verwandten Beziehungen zwischen diesen Produkten entdecken und nutzen können, um den Umsatz zu steigern, indem wir die Anzahl der Produkte im Warenkorb erhöhen, ohne die Anzahl der Kunden im Geschäft wesentlich zu erhöhen. Dadurch wird ein höheres Betriebsergebnis erzielt.

Warenkorrelation bedeutet, dass Waren im Geschäft nicht isoliert sind und beim Verkauf eine gegenseitige Einflussbeziehung eingehen. Da diese Beziehung oft hinter einer großen Anzahl von Warengruppen verborgen ist, wird sie auch Warenkorrelation genannt . „geheime Liebesbeziehung“ zwischen ihnen.

Wie machen wir also „geheime Beziehungen“ öffentlich? Die Methode zur Ermittlung der Beziehungen zwischen Produkten wird als Warenkorbanalyse bezeichnet. Für den klassischen Einzelhandel sind zur Analyse des Warenkorbs bestimmte Datenanalysemethoden erforderlich.

Zunächst nutzen wir die von POS-Automaten erfassten Einkaufsdaten der Kunden, um herauszufinden, welche Produkte häufig im selben Warenkorb erscheinen. Wenn Sie feststellen, dass die Wahrscheinlichkeit, dass Bier und Windeln im selben Warenkorb erscheinen, relativ hoch ist, können Sie davon ausgehen, dass ein Zusammenhang zwischen Bier und Windeln besteht. Dies kann Filialleiter dazu veranlassen, Bier und Windeln, zwei scheinbar unvereinbare Produkte, zusammen auszustellen oder sie zu Werbezwecken zu bündeln, sodass diese „geheime Liebesbeziehung“ eine Rolle bei der Verkaufsförderung spielen und die „geheime Liebesbeziehung“ zum Erfolg führen kann öffentlich. („Bier und Windeln“)

Unsere Daten umfassen Folgendes:

Zusammenfassung des Warenkorbs:

• cardid. Die Treuekarten-ID des Kunden, der diesen Warenkorb gekauft hat.

• Wert. Der Gesamtkaufpreis des Warenkorbs.

• pmethod. Die Zahlungsmethode für den Warenkorb.

Persönliche Daten des Karteninhabers:

• Sex

• Eigenheim. Ob der Karteninhaber ein Eigenheim besitzt.

• Einkommen

• Alter

Warenkorbinhalt – das Erscheinungszeichen der Produktkategorie. In den Daten bedeutet T „gekauft“ und F „nicht gekauft“:

• ObstGemüse

• Frischfleisch

•Molkerei

• Dosengemüse

•Dosenfleisch

• gefrorene Mahlzeit

• Bier

•Wein

•Erfrischungsgetränk

• Fisch

• Süßwaren

Mit der Web-Netzwerk-Mapping-Funktion von Clementine können Sie die folgenden Ergebnisse erzielen:

Bild.png

Nach Anpassung der Beziehungsstärkeanzeige lassen sich eindeutig drei Warengruppen ermitteln, was so verstanden werden kann, dass Verbraucher mehr Produkte aus Gruppenkombinationen kaufen, also gleichzeitig Produkte innerhalb derselben Gruppe kaufen.

Dies ist das Ergebnis, das mit dem GRI-Korrelationsmodell erzielt wurde:

Bild.png

Die Ergebnisse stimmen im Wesentlichen mit denen im Netzwerkdiagramm überein.

Mithilfe der Data-Mining-Technologie können wir zu diesem Zeitpunkt auch C5.0 und andere verwandte Algorithmen verwenden, um dasselbe Problem zu modellieren und eine subjektive Bewertung und objektive Genauigkeitsüberprüfung der Modellierungsergebnisse durchzuführen. Gleichzeitig können wir die kaufenden Konsumenten der drei Produktgruppen herausfiltern und mit der Methode der Korrelationsanalyse weiterhin den Einfluss demografischer Variablen auf die Produktgruppen untersuchen und so ermitteln, welche Personengruppe welche Produkte am liebsten kauft Gleichzeitig verbessern und den Produktverkauf unterstützen.

Im Folgenden ignorieren wir die tatsächliche Bedeutung dieser Daten und berücksichtigen nicht mehr die Eignung praktischer Probleme und statistischer Methoden. Wir betrachten nur die Datenstruktur und verwenden weiterhin traditionelle statistische Datenanalysemethoden Um diese Schlussfolgerungen zu ziehen?

Importieren Sie die Daten in SPSS und kodieren Sie die Daten neu. Die ursprünglichen Zahlen T und F werden durch die Zahlen 1 und 0 ersetzt, da 1 und 0 Zahlen sind, mit denen Operationen durchgeführt werden können und die an verschiedenen mathematischen Modellen beteiligt sein können.

Die Ergebnisse der relevanten Analyse:

Clustering-Ergebnisse:

Die Ergebnisse der Faktorenanalyse:

Alle Schlussfolgerungen sind sehr konsistent!


Hinterlasse eine Antwort