El análisis de correlación es uno de los componentes importantes del sistema de minería de datos y su caso representativo es el "análisis de la cesta de la compra". Tomemos como ejemplo los datos de análisis de la cesta de la compra proporcionados por el software de minería de datos Clementine para explorar este aspecto desde múltiples aspectos.

El principal problema que debe resolver el análisis de correlación es: después de que un grupo de usuarios compra muchos productos, ¿qué productos es más probable que se compren al mismo tiempo? ¿Qué producto es más probable que se compre junto con el producto A? Puede deberse a que el análisis de correlación se utilizó ampliamente inicialmente en los supermercados, por lo que también se le llama "análisis de la cesta de la compra" y se abrevia como MBA en inglés. Por supuesto, este MBA no es el otro MBA, que significa Análisis de la cesta de la compra.

Si en la pregunta de investigación se supone que todos los productos comprados por un usuario se compran al mismo tiempo, el foco del análisis es la correlación entre los productos comprados por todos los usuarios si se supone que los productos comprados; por un usuario se compran en diferentes momentos, y el análisis es necesario resaltar la relación en orden temporal, como por ejemplo, ¿qué se compró primero y qué se compró después? Entonces, este tipo de problema se denomina problema de secuencia, que es un caso especial de problema de correlación. En cierto sentido, los problemas de secuencia también pueden resolverse en términos de problemas de asociación.

Hay tres conceptos muy importantes en el análisis de correlación, que son los "tres grados": apoyo, credibilidad y promoción. Supongamos que 10.000 personas compran productos, de las cuales 1.000 personas compran el producto A, 2.000 personas compran el producto B y 800 personas compran el producto A al mismo tiempo. El soporte se refiere a la proporción del número de personas que compran productos relacionados (suponiendo que el producto A y el producto B están relacionados) al mismo tiempo con respecto al número total de personas, es decir, 800/10000 = 8% y 8% de los usuarios compraron los productos A y B al mismo tiempo; la credibilidad se refiere a la posibilidad de comprar otro producto después de comprar un producto. Por ejemplo, la credibilidad de comprar el producto B después de comprar el producto A = 800/1000 = 80%, es decir, El 80% de los usuarios compran el producto A después de comprar el producto A. Después del producto, el grado de promoción del producto B es la relación entre la posibilidad de comprar el producto B bajo la condición de comprar el producto A y la posibilidad de comprar el producto B sin ella; tales condiciones La posibilidad de comprar el producto B sin ninguna condición = 2000/10000 = 20%, entonces el grado de mejora = 80%/20% = 4. (http://bai.zhihao.blog.163.com/blog/static/5652272320118953220582/)

El caso más clásico de análisis de correlación es la historia de la cerveza y los pañales de Walmart:

Cuando los gerentes de los supermercados de Wal-Mart analizaron los datos de ventas, descubrieron un fenómeno incomprensible: bajo ciertas circunstancias, dos artículos aparentemente no relacionados, cerveza y pañales, a menudo aparecían en la misma cesta de la compra. Resulta que cuando los padres jóvenes van al supermercado a comprar pañales, a menudo se compran cerveza.

Wal-Mart descubrió este fenómeno único y comenzó a intentar colocar cerveza y pañales en la misma zona de sus tiendas, para que los padres jóvenes pudieran encontrar estos dos artículos al mismo tiempo y completar sus compras rápidamente. Wal-Mart Supermarket también puede permitir a estos clientes comprar dos artículos a la vez en lugar de uno, obteniendo así más ingresos por ventas. Nos revela que los productos están relacionados. Al descubrir y utilizar las relaciones relacionadas entre estos productos, podemos lograr el propósito de aumentar las ventas aumentando la cantidad de productos en la cesta de la compra sin aumentar significativamente la cantidad de clientes en la tienda. obteniendo así mayores ingresos operativos.

La correlación de productos significa que los productos no están aislados en la tienda. Los diferentes productos formarán una relación de influencia mutua durante las ventas. Dado que esta relación a menudo está oculta detrás de una gran cantidad de grupos de productos, generalmente no podemos encontrarla, por lo que también se llama correlación de productos. . "relación de amor secreta" entre ellos.

Entonces, ¿cómo hacemos públicas las "relaciones secretas"? El método para descubrir las relaciones entre productos se llama análisis de la cesta de la compra. Para la industria minorista tradicional, para analizar la canasta de compras de productos, se requieren ciertos métodos de análisis de datos.

En primer lugar, utilizamos los datos de compra de los clientes recopilados por las máquinas POS para descubrir qué productos aparecen con frecuencia en la misma cesta de la compra. Si descubres que la probabilidad de que aparezcan cerveza y pañales en la misma cesta de la compra es relativamente alta, puedes pensar que existe una relación entre la cerveza y los pañales. Esto puede incitar a los gerentes de las tiendas a exhibir cerveza y pañales, dos productos aparentemente incompatibles, juntos, o a agruparlos para promocionarlos, de modo que esta "relación de amor secreta" pueda desempeñar un papel en la promoción de las ventas y hacer que la "relación de amor secreta" "sea público. ("Cerveza y pañales")

Nuestros datos incluyen estas cosas:

Resumen de la cesta de la compra:

• cardid. El identificador de la tarjeta de fidelidad del cliente que compró esta cesta de artículos.

• valor El precio total de compra de la cesta de la compra.

• pmétodo. El método de pago de la cesta de la compra.

Datos personales del titular de la tarjeta:

• sexo

• Vivienda propia. Si el titular de la tarjeta es propietario de una vivienda.

• ingreso

• edad

Contenido de la cesta de la compra: la marca de apariencia de la categoría del producto en los datos, T significa comprado y F significa no comprado:

• frutas y verduras

• carne fresca

•lácteos

• verduras enlatadas

•carne enlatada

• comida congelada

• cerveza

•vino

•refresco

• pez

• confitería

Con la función de mapeo de red web de Clementine, puede obtener los siguientes resultados:

imagen.png

Después de ajustar la visualización de la fuerza de la relación, se pueden obtener claramente tres grupos de productos, lo que puede entenderse como que los consumidores compran más productos de combinaciones de grupos, es decir, compran productos dentro del mismo grupo al mismo tiempo.

Este es el resultado obtenido utilizando el modelo de correlación GRI:

imagen.png

Los resultados son básicamente consistentes con los observados en el diagrama de red.

Usando tecnología de minería de datos, también podemos usar C5.0 y otros algoritmos relacionados para modelar el mismo problema en este momento y realizar una evaluación subjetiva y una verificación objetiva de la precisión de los resultados del modelado. Al mismo tiempo, podemos filtrar a los consumidores compradores de los tres grupos de productos y continuar utilizando el método de análisis de correlación para examinar el impacto de las variables demográficas en los grupos de productos, determinando así qué grupo de personas prefiere comprar qué productos al mismo tiempo. al mismo tiempo y mejorar las ventas de productos.

A continuación, ignoramos la importancia real de estos datos y solo consideramos la clasificación de algunas variables. Ya no consideramos la idoneidad de los problemas prácticos y los métodos estadísticos. Solo observamos la estructura de los datos y utilizamos métodos tradicionales de análisis de datos. ¿Para sacar estas conclusiones?

Importe los datos a SPSS y recodifica los datos. La T y F originales se reemplazan con los números 1 y 0, porque 1 y 0 son números con los que se puede operar y pueden participar en una variedad de modelos matemáticos.

Los resultados del análisis relevante:

Resultados de agrupación:

Los resultados del análisis factorial:

¡Todas las conclusiones son muy consistentes!


Deja una respuesta