Archivo de la etiqueta: data science

Ciencia de datos para todos : ¿Cómo ha cambiado la movilidad de los usuarios de Twitter en Monterrey por el covid-19?

“Twitter es lo qué está pasando en el mundo y sobre lo que las personas están hablando en este momento.”

Las redes sociales son relativamente nuevas y han cobrado importancia en nuestra vida cotidiana al grado que no nos sentimos cómodos si vamos a un restaurante y no publicamos en Instagram lo que ordenamos para que nuestros amigos se enteren donde estuvimos y que hacíamos ahí o por ejemplo cuando por la mañana nos levantamos a hacer ejercicio y es imposible no publicar nuestra foto en lo más alto de la montaña.

Es por eso que el análisis de las interacciones en las redes sociales ha cobrado la misma importancia, para muchos negocios, que las redes sociales en nuestras vidas. Por ejemplo, para saber de qué se está hablando de nuestra marca, si es algo positivo o negativo y cuantificarlo. Estos enfoques son muy bien conocidos en el área de análisis de textos.

Sin embargo, el día de hoy nuestro enfoque tomara otro rumbo. Responderemos a dos preguntas fundamentales: ¿Cómo ha sido el comportamiento de los usuarios en los últimos meses?  Y ¿Cómo ha cambiado por el covid-19?  

*También te puede interesar un estudio similar para Jalisco o CDMX

Desarrollo

Con una base de datos de alrededor 7200 check-in’s (el registro de una persona en cierto lugar), más de 15 variables (fecha y hora, lugar donde se hizo el registro, municipio de residencia, usuario, ubicación exacta, entre otras) y algo de trabajo se pueden generar diversos insigths de valor.

Pero antes de llegar a esos insigths de valor hay camino por recorrer. La primera pregunta en cuestión es: ¿Cómo conseguir este tipo de información en un sitio web tan protegida como lo es Twitter?

No hay forma de conseguir esta información si no es mediante la API (Application Programming Interface) de Twitter. La API cumple la función de una interfaz para que dos softwares interactúen y puedan intercambiar información. Para tu poder hacer un request desde tu computadora (Con programas como Python y R) y acceder a este tipo de información debes llenar una solicitud, una vez aprobada la solicitud Twitter te hará llegar las API keys, el identificador que te autentica como usuario de las API. Para más información clic aquí.

 

Una vez obtenido la información sigue la fase de trabajar los datos para posteriormente pasar a la fase de análisis. Nos referimos a la fase de homologar ciertas variables o categorizar observaciones en función de valores que toman algunas variables, en nuestro caso categorizamos los lugares a donde las personas han asistido los últimos meses. Otro ejemplo de esta fase es poner las fechas en un mismo formato (año/mes/día o día/mes/año) para no tener problemas al momento de visualizar los datos en una línea de tiempo.

Datlas_Promo_Facebook_Suscribe

 

Ahora si el plato fuerte, el análisis. Aquí empezamos viendo la estructura y distribución de cada una de nuestras variables, y modificar en caso de que algo este fuera de lugar, por ejemplo, las variables categóricas cambiarlas a factores si están como texto. Una gran parte del análisis es el momento de crear visualizaciones, esta es la parte creativa del analista porque ahora si que los límites para crear visualizaciones son muy extensos, claro, siempre con el cuidado de generar buenas visualizaciones no únicamente en el sentido de que se vean bonitas sino que también transmitan un mensaje claro y único. Otra gran parte del análisis es crear modelos estadísticos que expliquen a una variable (variable dependiente “y”) en función de otras variables (variables independientes “x”) y/o ayuden a predecir el comportamiento de la variable en el futuro.

Finalmente, llegamos a la etapa de conclusión y exposición de resultados, básicamente es ver el contraste entre la hipótesis que te hayas planteado o la pregunta que quieres responder y lo que los datos te dicen para después plasmarlo en una presentación o un texto.

Todas estas etapas aunque se escuchen muy “básicas” realmente las llevamos a cabo en nuestro análisis y es por eso que nos pareció importante no sólo exponer los resultados sino todo el desarrollo para que el lector que no este tan familiarizado en este ámbito pueda tener una mejor comprensión y no solo eso sino que se lleve un verdadero aprendizaje .

¿Qué encontramos?

Antes de empezar con las visualizaciones es importante mencionar que las primeras medidas preventivas en Nuevo León tomaron lugar el 17 de marzo del 2020, el día que cancelaron actividades escolares a nivel bachillerato y superior, y posteriormente el día 20 del mismo mes en los niveles básicos (primaria y secundaria).

La primera incógnita que nos gustaría responder es : ¿En qué magnitud o proporción ha disminuido el tráfico de check-ins en Twitter una vez iniciadas las medidas preventivas covid-19?

Esta gráfica ordena los días de la semana por mes, cada color es una etapa diferente: diciembre-2019 (azul) , antes de prevención covid (verde) y una vez iniciada la etapa de prevención covid (rojo).
Esta gráfica ordena los días de la semana y nos ayuda a visualizar la proporción de check-ins realizados en cada etapa.

 

 

Para poder crear estas visualizaciones tuvimos que categorizar nuestros datos en tres grupos (diciembre-2019, Antes de prevención covid y Después de prevención covid). En las dos gráficas se aprecia una caída significativa en los check-ins registrados una vez iniciadas las prevenciones covid. Se podría argumentar que esto se debe a la naturaleza de los meses abril, mayo y junio, sin embargo, llama mucho la atención que la primera mitad de marzo tenga mucha actividad y la segunda mitad se vea estancada. Hablando más puntualmente los chek-ins tuvieron una disminución del 75%.

Datlas_Promo_Podcast_Suscribe

 

Otra visualización que hicimos fue una especie de heatmap que nos permitiera ver por mes cuales fueron los municipios del área metropolitana con mayor actividad y en este sentido ver que municipios menos siguieron las recomendaciones de los expertos.

Heatmap de actividad por municipio y mes. No se estandarizo para numero de check-ins por habitante.

Ahora, pasaremos a contestar la pregunta ¿Cómo ha cambiado el comportamiento de los check-ins durante el covid? Para responder esta pregunta hicimos un cluster de 17 grupos y visualizamos la proporción de check-ins para cada grupo. Algunos de los grupos son: comida (restaurantes), entretenimiento (cines, boliches, parques, etc), Salud (hospitales, clínicas y gimnasios), Autoservicio (tiendas de autoservicio como H-E-B y Walmart), residencial (zonas residenciales), etc.

Proporción y orden de los grupos en las diferentes etapas de la contingencia. Comparativa de tipo de lugar donde la gente hace check-ins por etapa.

Podemos observar que en las primeras dos gráficas el orden y proporción de los grupos son muy parecidos y esto cambia considerablemente para la tercera. Dos grupos que han cobraron mucha importancia durante el tiempo de la pandemia son autoservicio y residencial, por otra parte, los grupos de entretenimiento, vida nocturna y aeropuerto pasaron de ser primeros a últimos. Considerar todos los ángulos a la hora de hacer un análisis es muy importante porque si no nos detuviéramos a ver a donde realmente la gente ha acudido y solo hubiéramos analizado las primeras tres gráficas probablemente nos quedaríamos con una mala impresión de los municipios de Monterrey y San Nicolás que han sido los municipios con mayor actividad y precisamente con esta gráfica podemos ver que mucha de esa actividad es desde sus casas.

Datlas_Promo_Youtube_Suscribe

Por último ¿qué podemos decir de estos resultados? Tenemos información suficiente para decir que la pandemia ha cambiado la manera en la que las personas hacen check-ins en magnitud y forma. En su mayoría la gente se está quedando en casa y está asistiendo primordialmente a lugares de primera necesidad como tiendas de autoservicio donde surten la despensa y restaurantes, no obstante, se sigue asistiendo a lugares que probablemente no se consideren de primera necesidad como ir al aeropuerto para ir a vacacionar y asistir a hoteles, donde, probablemente hoy sean los lugares con mayor riesgo de contagio y es por eso que invitamos a todos nuestros lectores a seguir las indicaciones de los expertos y no salir de casa a menos que sea necesario.

Esta columna fue desarrollada por Alejandro Rodalgo,  participante del programa de “intern” de Datlas en investigación. 

Saludos

Equipo Datlas

¿Cómo aprender Ciencia de datos? 6 lecciones prácticas tras años de intentos – Datlas TIPS –

Durante los últimos años hemos encontrado una explosión de fuentes de aprendizaje en lo relacionado a temas de ciencia de datos. Estos van desde técnicas de autoestudio, ser sombra de científicos, lecturas especializadas, cursos presenciales, cursos en línea, etc.

De todos estos medios compartiremos en esta columna 6 reflexiones importantes que te serán de utilidad si piensas aprender o estás aprendiendo técnicas de ciencia de datos.

Datlas_Blog_Promo_SuscriberFree

También puedes leer.

Datlas_Learned_youngone

1) El objetivo de aprender lo tiene el estudiante. Dejamos claro que el maestro no tiene obligación de que aprendas, más bien el estudiante es quien tiene como meta aprender

  • Establecer metas claras en una línea de tiempo: Ser principiante en al menos un lenguaje de programación en menos de 6 meses
  • Cualquier maestro que encuentres (amigos, maestros formales, libros, cursos en línea, etc.) Puede que sea una figura con alto “expertise”, pero es tu trabajo sacarle el mayor provecho

Datlas_datascience_everywhere

2) Se les aconseja a los estudiantes rodearse de todo lo que huela, se vea y se sienta como “Data Science”

  • Entrar a comunidades locales de Datos. Desde grupos de Facebook, los eventos , conferencias más enfocados al tema que tengas cerca, colegas de aprendizaje y finalmente cambia tu lectura a libros de estos temas
  • También busca aportar a la comunidad de regreso lo más pronto posible

Datlas_dominios

3) Apalanca tu aprendizaje iniciando con un campo de dominio donde tengas experiencia laboral

  • Usa tu experiencia laboral, específicamente los datos a los que has estado expuest@ con más frecuencia para que sea un menor reto descifrar la información que vas a analizar
  • También es recomendable mapear 2 ó 3 sectores nuevos de los que quieres aprender y enfocar tus estudios a esas áreas específicas de datos

Datlas_failfast_learnfaster

4) Vas a cometer errores, así que haz que sean rápidos. Recuerda que se aprende más de tus propios errores y no los de los demás

  • Ponte aprueba buscando bases de datos por tu cuenta y generando análisis sin ningún tipo de guía más que tú propia ideación. Sólo ten en cuenta la utilidad de los casos de estudio que estés revisando
  • Ponte en los zapatos del usuario final o de un cliente que quisiera usar esos datos como ventaja para su negocio. Haz el recorrido completo de un analista de datos para transformar datos en accionables

Datlas_nerdreading

Datlas_Promo_Facebook_Suscribe

5) Aprende a leer documentación técnica y a encontrar información

  • Ciencia de datos tiene como fundamentos la estadística y programación, sin embargo estos son solo los primeros pasos ya que durante el camino habrá que leer mucho para aprender de librerías y métodos que necesitemos aplicar a nuestros análisis
  • Consulta cuáles son las paqueterías o librerías más utilizadas en el lenguaje de programación que estás aprendiendo. Personalmente recomiendo seguir en twitter a otros científicos de datos que publiquen algunos de sus análisis

Datlas_motivation

6) Sé paciente, positivo y busca fuentes de motivación, las necesitarás

  • Ten paciencia, no te frustres. Un buen aprendizaje toma tiempo, a veces avanzamos demasiado rápido y porque tenemos que refrescar la estadística nos frenamos un poco. O bien nos entretenemos mucho en descubrir cómo funciona un nuevo algoritmo cuando con una regresión básica hubieramos solucionado el reto. Hay que ir midiendo qué métodos de aprendizaje nos funcionan mejor
  • También recomiendo seguir en linkedin a personalidades que ya sean científicos de datos de grandes empresas que constantemente publican consejos y guías de aprendizaje para mantenerse más motivado

Datlas_barra_suscribir

Hasta aqui la columna de hoy, recuerda que en este blog contamos con distintos casos de investigación que pueden animarte a investigar. También concluimos con un vínculo a nuestras publicaciones que hemos hecho en conferencias de datos. Esperemos que haya muchos entusiastas de los datos, coméntanos en nuestra redes en Facebook , Twitter e Instagram.

Equipo Datlas