Archivo de la etiqueta: APIs

Ciencia de datos para todos : ¿Cómo ha cambiado la movilidad de los usuarios de Twitter en Monterrey por el covid-19?

“Twitter es lo qué está pasando en el mundo y sobre lo que las personas están hablando en este momento.”

Las redes sociales son relativamente nuevas y han cobrado importancia en nuestra vida cotidiana al grado que no nos sentimos cómodos si vamos a un restaurante y no publicamos en Instagram lo que ordenamos para que nuestros amigos se enteren donde estuvimos y que hacíamos ahí o por ejemplo cuando por la mañana nos levantamos a hacer ejercicio y es imposible no publicar nuestra foto en lo más alto de la montaña.

Es por eso que el análisis de las interacciones en las redes sociales ha cobrado la misma importancia, para muchos negocios, que las redes sociales en nuestras vidas. Por ejemplo, para saber de qué se está hablando de nuestra marca, si es algo positivo o negativo y cuantificarlo. Estos enfoques son muy bien conocidos en el área de análisis de textos.

Sin embargo, el día de hoy nuestro enfoque tomara otro rumbo. Responderemos a dos preguntas fundamentales: ¿Cómo ha sido el comportamiento de los usuarios en los últimos meses?  Y ¿Cómo ha cambiado por el covid-19?  

*También te puede interesar un estudio similar para Jalisco o CDMX

Desarrollo

Con una base de datos de alrededor 7200 check-in’s (el registro de una persona en cierto lugar), más de 15 variables (fecha y hora, lugar donde se hizo el registro, municipio de residencia, usuario, ubicación exacta, entre otras) y algo de trabajo se pueden generar diversos insigths de valor.

Pero antes de llegar a esos insigths de valor hay camino por recorrer. La primera pregunta en cuestión es: ¿Cómo conseguir este tipo de información en un sitio web tan protegida como lo es Twitter?

No hay forma de conseguir esta información si no es mediante la API (Application Programming Interface) de Twitter. La API cumple la función de una interfaz para que dos softwares interactúen y puedan intercambiar información. Para tu poder hacer un request desde tu computadora (Con programas como Python y R) y acceder a este tipo de información debes llenar una solicitud, una vez aprobada la solicitud Twitter te hará llegar las API keys, el identificador que te autentica como usuario de las API. Para más información clic aquí.

 

Una vez obtenido la información sigue la fase de trabajar los datos para posteriormente pasar a la fase de análisis. Nos referimos a la fase de homologar ciertas variables o categorizar observaciones en función de valores que toman algunas variables, en nuestro caso categorizamos los lugares a donde las personas han asistido los últimos meses. Otro ejemplo de esta fase es poner las fechas en un mismo formato (año/mes/día o día/mes/año) para no tener problemas al momento de visualizar los datos en una línea de tiempo.

Datlas_Promo_Facebook_Suscribe

 

Ahora si el plato fuerte, el análisis. Aquí empezamos viendo la estructura y distribución de cada una de nuestras variables, y modificar en caso de que algo este fuera de lugar, por ejemplo, las variables categóricas cambiarlas a factores si están como texto. Una gran parte del análisis es el momento de crear visualizaciones, esta es la parte creativa del analista porque ahora si que los límites para crear visualizaciones son muy extensos, claro, siempre con el cuidado de generar buenas visualizaciones no únicamente en el sentido de que se vean bonitas sino que también transmitan un mensaje claro y único. Otra gran parte del análisis es crear modelos estadísticos que expliquen a una variable (variable dependiente “y”) en función de otras variables (variables independientes “x”) y/o ayuden a predecir el comportamiento de la variable en el futuro.

Finalmente, llegamos a la etapa de conclusión y exposición de resultados, básicamente es ver el contraste entre la hipótesis que te hayas planteado o la pregunta que quieres responder y lo que los datos te dicen para después plasmarlo en una presentación o un texto.

Todas estas etapas aunque se escuchen muy “básicas” realmente las llevamos a cabo en nuestro análisis y es por eso que nos pareció importante no sólo exponer los resultados sino todo el desarrollo para que el lector que no este tan familiarizado en este ámbito pueda tener una mejor comprensión y no solo eso sino que se lleve un verdadero aprendizaje .

¿Qué encontramos?

Antes de empezar con las visualizaciones es importante mencionar que las primeras medidas preventivas en Nuevo León tomaron lugar el 17 de marzo del 2020, el día que cancelaron actividades escolares a nivel bachillerato y superior, y posteriormente el día 20 del mismo mes en los niveles básicos (primaria y secundaria).

La primera incógnita que nos gustaría responder es : ¿En qué magnitud o proporción ha disminuido el tráfico de check-ins en Twitter una vez iniciadas las medidas preventivas covid-19?

Esta gráfica ordena los días de la semana por mes, cada color es una etapa diferente: diciembre-2019 (azul) , antes de prevención covid (verde) y una vez iniciada la etapa de prevención covid (rojo).
Esta gráfica ordena los días de la semana y nos ayuda a visualizar la proporción de check-ins realizados en cada etapa.

 

 

Para poder crear estas visualizaciones tuvimos que categorizar nuestros datos en tres grupos (diciembre-2019, Antes de prevención covid y Después de prevención covid). En las dos gráficas se aprecia una caída significativa en los check-ins registrados una vez iniciadas las prevenciones covid. Se podría argumentar que esto se debe a la naturaleza de los meses abril, mayo y junio, sin embargo, llama mucho la atención que la primera mitad de marzo tenga mucha actividad y la segunda mitad se vea estancada. Hablando más puntualmente los chek-ins tuvieron una disminución del 75%.

Datlas_Promo_Podcast_Suscribe

 

Otra visualización que hicimos fue una especie de heatmap que nos permitiera ver por mes cuales fueron los municipios del área metropolitana con mayor actividad y en este sentido ver que municipios menos siguieron las recomendaciones de los expertos.

Heatmap de actividad por municipio y mes. No se estandarizo para numero de check-ins por habitante.

Ahora, pasaremos a contestar la pregunta ¿Cómo ha cambiado el comportamiento de los check-ins durante el covid? Para responder esta pregunta hicimos un cluster de 17 grupos y visualizamos la proporción de check-ins para cada grupo. Algunos de los grupos son: comida (restaurantes), entretenimiento (cines, boliches, parques, etc), Salud (hospitales, clínicas y gimnasios), Autoservicio (tiendas de autoservicio como H-E-B y Walmart), residencial (zonas residenciales), etc.

Proporción y orden de los grupos en las diferentes etapas de la contingencia. Comparativa de tipo de lugar donde la gente hace check-ins por etapa.

Podemos observar que en las primeras dos gráficas el orden y proporción de los grupos son muy parecidos y esto cambia considerablemente para la tercera. Dos grupos que han cobraron mucha importancia durante el tiempo de la pandemia son autoservicio y residencial, por otra parte, los grupos de entretenimiento, vida nocturna y aeropuerto pasaron de ser primeros a últimos. Considerar todos los ángulos a la hora de hacer un análisis es muy importante porque si no nos detuviéramos a ver a donde realmente la gente ha acudido y solo hubiéramos analizado las primeras tres gráficas probablemente nos quedaríamos con una mala impresión de los municipios de Monterrey y San Nicolás que han sido los municipios con mayor actividad y precisamente con esta gráfica podemos ver que mucha de esa actividad es desde sus casas.

Datlas_Promo_Youtube_Suscribe

Por último ¿qué podemos decir de estos resultados? Tenemos información suficiente para decir que la pandemia ha cambiado la manera en la que las personas hacen check-ins en magnitud y forma. En su mayoría la gente se está quedando en casa y está asistiendo primordialmente a lugares de primera necesidad como tiendas de autoservicio donde surten la despensa y restaurantes, no obstante, se sigue asistiendo a lugares que probablemente no se consideren de primera necesidad como ir al aeropuerto para ir a vacacionar y asistir a hoteles, donde, probablemente hoy sean los lugares con mayor riesgo de contagio y es por eso que invitamos a todos nuestros lectores a seguir las indicaciones de los expertos y no salir de casa a menos que sea necesario.

Esta columna fue desarrollada por Alejandro Rodalgo,  participante del programa de “intern” de Datlas en investigación. 

Saludos

Equipo Datlas