Como lo platicamos en «La historia de las tecnologías de información computacional» desde que el poder de cómputo ha incrementado hemos buscado formas de generar análisis más completos y asertivos para nuestros casos de estudio.
Uno de ellos es el análisis de clúster que es una técnica estadística multivariante cuyo objetivo es formar grupos de elementos homogéneos o similares que al mismo tiempo sean heterogéneos o distintos entre sí. ¿En español y negocios? Hay casos en donde generar una estrategia para cada cliente puede ser costoso, pero si agrupamos a estos clientes en segmentos podemos impactar a grupos similares con estrategias puntuales.
En esta columna explicaremos un caso de ejemplo de clustering para generar segmentos de clientes. Los datos que revisaremos vienen de encuestas levantadas con visitantes al festival Luztopia. (Si te interesan sólo los resultados favor de pasar al final de la columna). El objetivo identificar segmentos de asistentes específicos al festival para la ideación y generación de mejores promociones el próximo año.
Para ser justos hay que explicar que existen distintos tipos de análisis para generar estas agrupaciones o clústers. Los dos grandes grupos son: No jerárquicos y jerárquicos. En este caso en particular usaremos uno de los métodos no jerarquicos. Lo que quiere decir que un clúster generado no depende de otro clúster, son independientes. Dentro de los no jerarquicos utilizaremos los asociados al algoritmo «k-means», que está dentro de la familia de los no jerárquicos. Este algoritmo usa de inicio medias aribtrarias y, mediante pruebas sucesivas, va ajustando el valor de la misma. La idea es no ponernos más técnicos, pero si te interesa conocer más a detalle te recomendamos revisar la p.23 de este documento. En pocas palabras k-means nos apoyará ensamblando clústers de perfiles que sean similares entre sí, pero a la vez diferentes entre cada grupo.
BASE DE DATOS
La información que revisaremos son un par de encuestas que incluyen datos como los siguientes:
En concreto usaremos para armar los clústers las variables numéricas, tales como: Edad de personas que respondieron, tamaño de su grupo, cantidad de menores de 18 en el grupo, gasto en cena, gasto en productos dentro del recorrido, gasto total estimado y tiempo de estancia en el evento. Para quienes han analizado datos similares ya se podrán imaginar el tipo de respuestas que podremos generar: ¿Cuáles son los perfiles que más visitan? ¿Qué perfiles gastan más en su recorrido? ¿Habrá relación entre los visitantes que van con niños y su compra en cenas? ¿Extender el recorrido en tiempo haría que las personas consuman más cenas? Entre otros.
Este es el tipo de respuestas que generamos en los reportes que trabajamos en Datlas, sin embargo para fines de esta columna nos ubicaremos en el ejercicio de clústers buscando generar segmentos para los cuales podamos generar nuevas promociones.
MÉTODO
Un paso que algunos analistas descuidan es el proceso de «normalizar» datos. Una vez que empiezas por el camino de #machinelearning va a ser un paso que será muy común. «Escalar» es un proceso de redimensión de variables para que estas se encuentren entre rangos de -5 a 5, por ejemplo. Este proceso ayuda a centrar los datos alrededor de la media. Estos métodos tienen área de oportunidad cuando tenemos anomalías, pero en este caso dado la distribución de las variables hacía sentido escalar. A continuación un contraste del proceso.
A partir de este proceso generamos una matriz de distancia entre las variables. Esto nos indica en rojo los registros de variables, en este caso visitantes a Luztopia, que son más distintos en perfiles y hábitos de consumo. Aunque realmente es complicado leerlo así. Por lo mismo es un paso intermedio
Un siguiente paso es hacer una primera iteración de clústers. En esta ocasión supervisamos al algoritmo para que nos entregue de regreso 4 clústers. Cada punto que vemos en la gráfica es una encuesta respondida por la muestra de visitantes que estamos evaluando. En el clúster 1, por ejemplo, pudieran ser todos los visitantes que asistieron con niños a Luztopia. Eso genera una diferenciación tan crítica, que separa este clúster de los demás. Sin embargo los otros clústers se traslapan.
Lo ideal es que el traslape sea mínimo o nulo. En este sentido podemos retar la cantidad de clústers que le pedimos al sistema generar. Para esto podemos usar un proceso que nos recomienda la cantidad de clúster óptimos.
De acuerdo a este proceso 2 son los números ideales y óptimos de clústers. También lo serían 5 ó 6, pero en realidad manejar estrategias de negocio para tantos grupos puede ser complicado. Por esta razón seleccionamos 2 como caso de uso.
Finalmente, para poner en práctica nuevas estrategias de negocios, podemos identificar cuáles son las medias de cada una de las variables, cómo contrastan los clústers y algo que recomendamos es generar «avatars» o «buyers personas» que permitan comunicar hacia dentro de la organización la manera de trabajar.
TESTIMONIO
Hasta aqui la columna de hoy. Te compartimos finalmente el testimonio de nuestra colaboración con el «Clúster de Turismo NL» donde usamos técnicas como estas para generar distintos entendimientos del festival Luztopia. Además puedes revisar el podcast que grabamos con ellos si te interesa «Analitica en sector Turismo».
Si te interesa conocer y contratar este tipo de servicios de «Clustering sobre resultados de encuestas o investigaciones para generar segmentos y seleccionar los mejores mensajes para tu mercado» te recomendamos visitar nuestro marketplace y solicitar una llamada de orientación. Contáctanos también en ventas@datlas.mx
Saludos
– Keep it weird-
Pingback: A/B Testing y métodos de experimentación en aplicaciones comerciales – Datlas Research | Blog de www.datlas.mx
Pingback: 5 ejercicios de ciencia de datos que todo e-commerce debería realizar – Datlas Manuales | Blog de www.datlas.mx