Archivo de la etiqueta: Ciencia de datos méxico

ciencia de datos a la mexicana, próximo lanzamiento de playbook en 2020 – datlas MANUALES

La ciencia datos en el 2020 no debería ser “ciencia de cohetes” (rocket science) o no se le debería de ver como una caja negra. Está comprobado que “Lo que no se mide no se puede mejorar” y ahora, actualizando esta frase, “Lo que no se mide, no se analiza matemáticamente y no se socializa no se puede mejorar”. Absolutamente de esto se trata la ciencia de datos aplicada para convertir esos datos en historias (insights) y esas historias en accionables.

Uno de nuestros motivadores con Datlas ha sido desarrollar contenido para incrementar el entusiasmo y la aplicación por la ciencia de datos. Este año lo hemos hecho logrando más de 65 mil hits en nuestro blog, más de 4,000 escuchas en nuestra primera temporada del podcast “Café de Datos”, patrocinando el hackathon estudiantil más grande de México y dando más de 30 conferencias y webinars a empresas y estudiantes del ecosistema de transformación digital.

compartir experiencias e incrementar en conjunto el uso de plataformas de big data, analítica e inteligencia artificial.

**También te puede interesar nuestros Data Playbook Volumen I y II desde nuestro marketplace. Da click aqui para obtenerlo GRATIS.

Ahora te presentamos nuestro Data Playbook Volumen III”, nuestra tercera edición del compilado de nuestros aprendizajes como startup en crecimiento. En este contenido encontrarás definiciones de conceptos, metodologías y, lo más importante, aplicaciones de ciencia de datos. Contamos con lujo de detalle desde la construcción y desarrollo de modelos de respuesta inmediata, estrategias para el sector turismo, plataformas de inteligencia para “Dark Kitchens” hasta estrategias de analítica para aseguradoras. Finalmente sensibilizamos y ampliamos la conversación de nuestro podcast sobre privacidad e inteligencia de ubicación (“Location Intelligence”).

Solicita aqui para ser parte del lanzamiento este 15 de septiembre

En concreto compartiremos muchos de los métodos y aplicaciones prácticas que hemos desarrollado en el último año para negocios y gobiernos. Este tipo de lecturas le servirá a personas que están interesadas en aprender más de ciencia de datos asi como quienes ya están aplicando casos en organizaciones. Lo importante es conocer qué alcances existen, cómo prepararse y cómo acompañarse de startups o empresas aliadas que ayuden a las organizaciones a llegar ahí más rápido.

Hasta aqui la columna de hoy, estamos muy entusiasmados por este lanzamiento que llevamos en el equipo más de un mes preparando. Las y los invitamos a suscribirse en el bloque superior para recibirlo GRATIS.

Equipo Datlas

-Keep it weird-

Ciencia de datos para todos : ¿Cómo ha cambiado la movilidad de los usuarios de Twitter en Monterrey por el covid-19?

“Twitter es lo qué está pasando en el mundo y sobre lo que las personas están hablando en este momento.”

Las redes sociales son relativamente nuevas y han cobrado importancia en nuestra vida cotidiana al grado que no nos sentimos cómodos si vamos a un restaurante y no publicamos en Instagram lo que ordenamos para que nuestros amigos se enteren donde estuvimos y que hacíamos ahí o por ejemplo cuando por la mañana nos levantamos a hacer ejercicio y es imposible no publicar nuestra foto en lo más alto de la montaña.

Es por eso que el análisis de las interacciones en las redes sociales ha cobrado la misma importancia, para muchos negocios, que las redes sociales en nuestras vidas. Por ejemplo, para saber de qué se está hablando de nuestra marca, si es algo positivo o negativo y cuantificarlo. Estos enfoques son muy bien conocidos en el área de análisis de textos.

Sin embargo, el día de hoy nuestro enfoque tomara otro rumbo. Responderemos a dos preguntas fundamentales: ¿Cómo ha sido el comportamiento de los usuarios en los últimos meses?  Y ¿Cómo ha cambiado por el covid-19?  

*También te puede interesar un estudio similar para Jalisco o CDMX

Desarrollo

Con una base de datos de alrededor 7200 check-in’s (el registro de una persona en cierto lugar), más de 15 variables (fecha y hora, lugar donde se hizo el registro, municipio de residencia, usuario, ubicación exacta, entre otras) y algo de trabajo se pueden generar diversos insigths de valor.

Pero antes de llegar a esos insigths de valor hay camino por recorrer. La primera pregunta en cuestión es: ¿Cómo conseguir este tipo de información en un sitio web tan protegida como lo es Twitter?

No hay forma de conseguir esta información si no es mediante la API (Application Programming Interface) de Twitter. La API cumple la función de una interfaz para que dos softwares interactúen y puedan intercambiar información. Para tu poder hacer un request desde tu computadora (Con programas como Python y R) y acceder a este tipo de información debes llenar una solicitud, una vez aprobada la solicitud Twitter te hará llegar las API keys, el identificador que te autentica como usuario de las API. Para más información clic aquí.

 

Una vez obtenido la información sigue la fase de trabajar los datos para posteriormente pasar a la fase de análisis. Nos referimos a la fase de homologar ciertas variables o categorizar observaciones en función de valores que toman algunas variables, en nuestro caso categorizamos los lugares a donde las personas han asistido los últimos meses. Otro ejemplo de esta fase es poner las fechas en un mismo formato (año/mes/día o día/mes/año) para no tener problemas al momento de visualizar los datos en una línea de tiempo.

Datlas_Promo_Facebook_Suscribe

 

Ahora si el plato fuerte, el análisis. Aquí empezamos viendo la estructura y distribución de cada una de nuestras variables, y modificar en caso de que algo este fuera de lugar, por ejemplo, las variables categóricas cambiarlas a factores si están como texto. Una gran parte del análisis es el momento de crear visualizaciones, esta es la parte creativa del analista porque ahora si que los límites para crear visualizaciones son muy extensos, claro, siempre con el cuidado de generar buenas visualizaciones no únicamente en el sentido de que se vean bonitas sino que también transmitan un mensaje claro y único. Otra gran parte del análisis es crear modelos estadísticos que expliquen a una variable (variable dependiente “y”) en función de otras variables (variables independientes “x”) y/o ayuden a predecir el comportamiento de la variable en el futuro.

Finalmente, llegamos a la etapa de conclusión y exposición de resultados, básicamente es ver el contraste entre la hipótesis que te hayas planteado o la pregunta que quieres responder y lo que los datos te dicen para después plasmarlo en una presentación o un texto.

Todas estas etapas aunque se escuchen muy “básicas” realmente las llevamos a cabo en nuestro análisis y es por eso que nos pareció importante no sólo exponer los resultados sino todo el desarrollo para que el lector que no este tan familiarizado en este ámbito pueda tener una mejor comprensión y no solo eso sino que se lleve un verdadero aprendizaje .

¿Qué encontramos?

Antes de empezar con las visualizaciones es importante mencionar que las primeras medidas preventivas en Nuevo León tomaron lugar el 17 de marzo del 2020, el día que cancelaron actividades escolares a nivel bachillerato y superior, y posteriormente el día 20 del mismo mes en los niveles básicos (primaria y secundaria).

La primera incógnita que nos gustaría responder es : ¿En qué magnitud o proporción ha disminuido el tráfico de check-ins en Twitter una vez iniciadas las medidas preventivas covid-19?

Esta gráfica ordena los días de la semana por mes, cada color es una etapa diferente: diciembre-2019 (azul) , antes de prevención covid (verde) y una vez iniciada la etapa de prevención covid (rojo).
Esta gráfica ordena los días de la semana y nos ayuda a visualizar la proporción de check-ins realizados en cada etapa.

 

 

Para poder crear estas visualizaciones tuvimos que categorizar nuestros datos en tres grupos (diciembre-2019, Antes de prevención covid y Después de prevención covid). En las dos gráficas se aprecia una caída significativa en los check-ins registrados una vez iniciadas las prevenciones covid. Se podría argumentar que esto se debe a la naturaleza de los meses abril, mayo y junio, sin embargo, llama mucho la atención que la primera mitad de marzo tenga mucha actividad y la segunda mitad se vea estancada. Hablando más puntualmente los chek-ins tuvieron una disminución del 75%.

Datlas_Promo_Podcast_Suscribe

 

Otra visualización que hicimos fue una especie de heatmap que nos permitiera ver por mes cuales fueron los municipios del área metropolitana con mayor actividad y en este sentido ver que municipios menos siguieron las recomendaciones de los expertos.

Heatmap de actividad por municipio y mes. No se estandarizo para numero de check-ins por habitante.

Ahora, pasaremos a contestar la pregunta ¿Cómo ha cambiado el comportamiento de los check-ins durante el covid? Para responder esta pregunta hicimos un cluster de 17 grupos y visualizamos la proporción de check-ins para cada grupo. Algunos de los grupos son: comida (restaurantes), entretenimiento (cines, boliches, parques, etc), Salud (hospitales, clínicas y gimnasios), Autoservicio (tiendas de autoservicio como H-E-B y Walmart), residencial (zonas residenciales), etc.

Proporción y orden de los grupos en las diferentes etapas de la contingencia. Comparativa de tipo de lugar donde la gente hace check-ins por etapa.

Podemos observar que en las primeras dos gráficas el orden y proporción de los grupos son muy parecidos y esto cambia considerablemente para la tercera. Dos grupos que han cobraron mucha importancia durante el tiempo de la pandemia son autoservicio y residencial, por otra parte, los grupos de entretenimiento, vida nocturna y aeropuerto pasaron de ser primeros a últimos. Considerar todos los ángulos a la hora de hacer un análisis es muy importante porque si no nos detuviéramos a ver a donde realmente la gente ha acudido y solo hubiéramos analizado las primeras tres gráficas probablemente nos quedaríamos con una mala impresión de los municipios de Monterrey y San Nicolás que han sido los municipios con mayor actividad y precisamente con esta gráfica podemos ver que mucha de esa actividad es desde sus casas.

Datlas_Promo_Youtube_Suscribe

Por último ¿qué podemos decir de estos resultados? Tenemos información suficiente para decir que la pandemia ha cambiado la manera en la que las personas hacen check-ins en magnitud y forma. En su mayoría la gente se está quedando en casa y está asistiendo primordialmente a lugares de primera necesidad como tiendas de autoservicio donde surten la despensa y restaurantes, no obstante, se sigue asistiendo a lugares que probablemente no se consideren de primera necesidad como ir al aeropuerto para ir a vacacionar y asistir a hoteles, donde, probablemente hoy sean los lugares con mayor riesgo de contagio y es por eso que invitamos a todos nuestros lectores a seguir las indicaciones de los expertos y no salir de casa a menos que sea necesario.

Esta columna fue desarrollada por Alejandro Rodalgo,  participante del programa de “intern” de Datlas en investigación. 

Saludos

Equipo Datlas