A/B Testing y métodos de experimentación en aplicaciones comerciales – INVESTIGACIÓN DATLAS

En recientes columnas hemos estado introduciendo métodos de negocios que han sido alterados por la analítica de datos. Tales como: Go-To-Market, Digitalización de anaqueles en E-commerce, Clustering para Segmentos de cliente y en esta ocasión queremos darle apertura al A/B Testing (Experimentación A/B).

A/B Testing es un método de experimentación que se puede utilizar en aplicaciones comerciales como promociones, programas de lealtad y descuentos. Este tipo de pruebas se conocen en otras ciencias como prueba aleatoria de control y es una herramienta poderosa para desarrollo de productos, iniciativas comerciales o de marketing.

Datlas_Blog_Promo_SuscriberFree

Esta columna te va a interesar si eres alguien que activamente está buscando validar si una campaña comercial o de marketing tiene éxito o no.

DatlaS_ab-testing

Definición de A/B Testing

Es una herramienta útil para estimar el ROI (retorno sobre inversión) así como proveernos de un panorama de causalidad que nos ayude a justificar si un proyecto debe o no debe ser escalado dado los resultados de ciertas pruebas de hipótesis.

Normalmente contrastamos la conducta entre 2 tipos de grupos con características similares: Grupo de control y grupo de tratamiento. En realidad pueden ser más, pero el punto es tener grupos a los que se les aplica distintos tratamientos que son contrastantes entre sí. Por ejemplo,en un experimento para bajar de peso, al grupo A ( De control) se le controló su dieta y al grupo B (De tratamiento) además de su dieta se le aplicó una rutina de ejercicios. Al final, si el grupo B tuvo un resultado más cercano al objetivo de bajar de peso podríamos concluir que el tratamiento aplicado al grupo B es más exitoso que el del grupo A.

Errores comunes a considerar

Siguiendo con el ejemplo los datos se podrían ver de esta manera

Datlas_blog_ABTesting

Con la mano en la cintura vamos a reportar que los tratamientos al grupo B hacen que bajes más kilos. Pero… un momento ¿Pudieran existir errores si concluimos algo así?

  • Error Tipo 1 – Conclusión fallida donde decimos que la intervención fue exitosa, cuando en realidad no lo fue.  Erróneamente asociamos el plan de alimentación como factor causal cuando algunos integrantes bajaron de peso porque, por ejemplo, su tipo de ejercicio en esa hora fue funcional o HIT mientras otros integrantes sólo caminaban. A esto se le llama también falsos positivos.
  • Error tipo 2 – Falsamente concluir que la intervención fue no exitosa.  A algunos miembros el plan de alimentación no les funcionó. Pero hay factores externos como el tipo de aceites que usan en la preparación o las bebidas que toman para poder llegar a una conclusión completa.

Estos errores van a suceder cuando queremos sacar conclusiones para toda una población a partir de una muestra. Sólo hasta que entendemos el verdadero dimensionamiento de nuestros resultados deberíamos de estar tomando decisiones de impacto de negocio.

Datlas_Blog_Promo_SuscriberFree

Ejemplo de casos de uso

  • Campañas de marketing por correo o mensajes de texto (SMS)
  • Programas de lealtad optimizando las promociones para lograr mayor redención
  • Medicina para entender si funciona o no una prueba
  • E-commerce para saber si algún cambio al aparador digital generaría mayor compra

Caso de estudio

El orden será primero establecer un ejercicio hipótesis acompañado de su diseño de experimento. Después trabajaremos en métodos aleatorios para generar muestras, justificar tamaños de muestras y finalmente seleccionar un método de mejoras.

Datlas_blog_abtesting_Exitoso_fracaso

Como otros problemas de negocios, este proceso inicia generando hipótesis considerando la población de estudio, la intervención a realizar, los indicadores para comparar entre grupos, el resultado de lo que estás midiendo y la selección del tiempo en el que se va a realizar la medición. Por sus siglas en inglés PICOT (Population, Intervention, comparison, outcome, time).

Por ejemplo, si tenemos un sitio de e-commerce donde queremos experimentar para lograr mayor conversión (visitantes que terminando comprando en el sitio)  generando cambios la visualización de nuestro «anaquel virtual». Para esto activaremos 2 anaqueles, el actual y el nuevo.  La hipótesis nula (H0) sería que las personas que vean el nuevo aparador virtual en nuestro sitio de e-commerce no tendrán mayor conversión comparados con los que vean el aparador actual. Por otro lado la hipótesis alternativa (H1) establece que los visitantes al sitio de e-commerce que vean el nuevo anaquel tendrán tasas de conversión más alta que  quienes vean el aparador actual.

Una vez concluido el ejercicio de formular hipótesis pasamos a generar muestras aleatorias. Buscaremos que las muestras sean balanceadas, donde ningún segmento este sobre-representado (usuarios que entran de móvil vs. usuarios que entran desde ordenador de escritorio).  Después será estimar el tamaño correcto de los grupos. Existen distintos métodos estadísticos para el cumplimiento de estas pruebas que puedes revisar como clustering, ICT o aplicar random a variables en R o Python. Claro, después de esto se recomienda validar que las distribuciones sean normales para comprobar aleatoriedad.

Finalmente la etapa más crítica será la de medición. Donde desde muchos ángulos tendremos que pensar bajo qué criterios evaluar el experimento. Considerar todas las excepciones o pormenores. En seguimiento al ejemplo del e-commerce: Grupos de edad relacionadas a la conversión, medios de pago, tiempos de entrega, entre otros para verdaderamente concluir el caso de éxito

Conclusión

Normalmente cuando concluimos accionables sólo con información descriptiva nos vemos limitados para llegar a conclusiones globales. En el negocio, a veces le invertimos a una prueba 3 semanas para una decisión que podría tener impacto sobre más de $1M o la existencia misma del negocio. Seguir los pasos del método de A/B testing te ayudará para reportar si una iniciativa es o no exitosa. Te recomendamos asesorarte con expertos para manejar adecuadamente los datos y sobre todo generar métricas que puedan abrir la conversación de cómo mejorar las iniciativas. Y así, finalmente, poder calcular un valor como retorno de inversión con una consideración de errores robusta.

Platica con nosotros y contáctanos en ventas@datlas.mx o en nuestro sitio web mediante el marketplace: https://www.datlas.mx/marketplace/

Datlas_Blog_Promo_SuscriberFree

Fuentes:

Clustering para generar segmentos de mercado – INVESTIGACIÓN DATLAS

Como lo platicamos en «La historia de las tecnologías de información computacional» desde que el poder de cómputo ha incrementado hemos buscado formas de generar análisis más completos y asertivos para nuestros casos de estudio.

Datlas_Blog_Promo_SuscriberFree

Uno de ellos es el análisis de clúster que es una técnica estadística multivariante cuyo objetivo es formar grupos de elementos homogéneos o similares que al mismo tiempo sean heterogéneos o distintos entre sí. ¿En español y negocios? Hay casos en donde generar una estrategia para cada cliente puede ser costoso, pero si agrupamos a estos clientes en segmentos podemos impactar a grupos similares con estrategias puntuales.

En esta columna explicaremos un caso de ejemplo de clustering para generar segmentos de clientes. Los datos que revisaremos vienen de encuestas levantadas con visitantes al festival Luztopia. (Si te interesan sólo los resultados favor de pasar al final de la columna). El objetivo identificar segmentos de asistentes específicos al festival para la ideación y generación de mejores promociones el próximo año.

El pase de diapositivas requiere JavaScript.

Para ser justos hay que explicar que existen distintos tipos de análisis para generar estas agrupaciones o clústers. Los dos grandes grupos son: No jerárquicos y jerárquicos. En este caso en particular usaremos uno de los métodos  no jerarquicos. Lo que quiere decir que un clúster generado no depende de otro clúster, son independientes.  Dentro de los no  jerarquicos utilizaremos los asociados al algoritmo «k-means», que está dentro de la familia de los no jerárquicos. Este algoritmo usa de inicio medias aribtrarias y, mediante pruebas sucesivas, va ajustando el valor de la misma. La idea es no ponernos más técnicos, pero si te interesa conocer más a detalle te recomendamos revisar la p.23 de este documento. En pocas palabras k-means nos apoyará ensamblando clústers de perfiles que sean similares entre sí, pero a la vez diferentes entre cada grupo.

BASE DE DATOS

La información que revisaremos son un par de encuestas que incluyen datos como los siguientes:

Datlas_blog_clustering2

En concreto usaremos para armar los clústers las variables numéricas, tales como: Edad de personas que respondieron, tamaño de su grupo, cantidad de menores de 18 en el grupo, gasto en cena, gasto en productos dentro del recorrido, gasto total estimado y tiempo de estancia en el evento. Para quienes han analizado datos similares ya se podrán imaginar el tipo de respuestas que podremos generar: ¿Cuáles son los perfiles que más visitan? ¿Qué perfiles gastan más en su recorrido? ¿Habrá relación entre los visitantes que van con niños y su compra en cenas? ¿Extender el recorrido en tiempo haría que las personas consuman más cenas? Entre otros.

Este es el tipo de respuestas que generamos en los reportes que trabajamos en Datlas, sin embargo para fines de esta columna nos ubicaremos en el ejercicio de clústers buscando generar segmentos para los cuales podamos generar nuevas promociones.

Datlas_Promo_Facebook_Suscribe

MÉTODO

Un paso que algunos analistas descuidan es el proceso de «normalizar» datos. Una vez que empiezas por el camino de #machinelearning va a ser un paso que será muy común.  «Escalar» es un proceso de redimensión de variables para que estas se encuentren entre rangos de -5 a 5, por ejemplo. Este proceso ayuda a centrar los datos alrededor de la media.  Estos métodos tienen área de oportunidad cuando tenemos anomalías, pero en este caso dado la distribución de las variables hacía sentido escalar. A continuación un contraste del proceso.

El pase de diapositivas requiere JavaScript.

A partir de este proceso generamos una matriz de distancia entre las variables. Esto nos indica en rojo los registros de variables, en este caso visitantes a Luztopia, que son más distintos en perfiles y hábitos de consumo. Aunque realmente es complicado leerlo así. Por lo mismo es un paso intermedio

Datlas_matriz_Distancia_Cluster

Un siguiente paso es hacer una primera iteración de clústers. En esta ocasión supervisamos al algoritmo para que nos entregue de regreso 4 clústers. Cada punto que vemos en la gráfica es una encuesta respondida por la muestra de visitantes que estamos evaluando. En el clúster 1, por ejemplo, pudieran ser todos los visitantes que asistieron con niños a Luztopia. Eso genera una diferenciación tan crítica, que separa este clúster de los demás. Sin embargo los otros clústers se traslapan.

Datlas_ClusterPlot_4

Lo ideal es que el traslape sea mínimo o nulo. En este sentido podemos retar la cantidad de clústers que le pedimos al sistema generar. Para esto podemos usar un proceso que nos recomienda la cantidad de clúster óptimos.

Datlas_optimal_Clusters

De acuerdo a este proceso 2 son los números ideales y óptimos de clústers. También lo serían 5 ó 6, pero en realidad manejar estrategias de negocio para tantos grupos puede ser complicado. Por esta razón seleccionamos 2 como caso de uso.

Datlas_ClusterPlot_2

Finalmente, para poner en práctica nuevas estrategias de negocios, podemos identificar cuáles son las medias de cada una de las variables, cómo contrastan los clústers y algo que recomendamos es generar «avatars» o «buyers personas» que permitan comunicar hacia dentro de la organización la manera de trabajar.

TESTIMONIO

Hasta aqui la columna de hoy. Te compartimos finalmente el testimonio de nuestra colaboración con el «Clúster de Turismo NL» donde usamos técnicas como estas para generar distintos entendimientos del festival Luztopia. Además puedes revisar el podcast que grabamos con ellos si te interesa «Analitica en sector Turismo».

Si te interesa conocer y contratar este tipo de servicios de «Clustering sobre resultados de encuestas o investigaciones para generar segmentos y seleccionar los mejores mensajes para tu mercado» te recomendamos visitar nuestro marketplace y solicitar una llamada de orientación. Contáctanos también en ventas@datlas.mx

Datlas_Promo_Podcast_Suscribe

Saludos

Equipo @DatlasMX

– Keep it weird-

Estrategia «Go-To-Market» en un mundo de datos – INVESTIGACIÓN Datlas

Las mayoría de las facultades y universidades de negocios han impartido sus cursos durante los últimos 20 años usando métodos de caso , dando fundamentos económicos, financieros y marketeros. Escuchamos macroeconomía, microeconómia, contabilidad de costos, balances generales, fundamentos de Porter, matriz de Ansoff y pirámide de Maslow por mencionar algunos de los indices de estas clases.

Datlas_Blog_Promo_SuscriberFree

Pero ¿Te has preguntado si estos métodos son vigentes en un contexto de analítica avanzada de datos? De antemano probablemente si lo serán… pero no hay mucha pista de cómo generar aplicaciones correctas o adecuaciones de estos en un mundo de Big Data y analítica avanzada a la planeación en negocios. En esta columna hablaremos de estrategias y algunas propuestas de modificaciones a los métodos tradicionales par adaptarnos a un mundo más moderno. Usaremos de ejemplo nuestro caso, en Datlas, y algunas otras startups y/o empresas de tecnología que han generado nuevos ecosistemas de negocios.

¿Qué es una estrategia Go-To-Market (GTM)?

Mientras una estrategia de marketing es un plan de largo plazo donde se establecen fundamentos de una compañía como principios, reglas y metas en los mensajes que se comparten a perfiles de consumidores determinados, Go-To-Market es de corto plazo. Es un plan donde paso a paso se establece un mapa de lanzamiento de un nuevo producto, servicio o expansión.

Mientras los recursos son escasos, la competencia abundante y los planes de mejora continua son constantes en las organizaciones es necesario generar un plan que permita ser preventivos y desarrollar métricas para identificar si nuestro desarrollo es exitoso o un fracaso.

El pase de diapositivas requiere JavaScript.

Propósito de GTM

  • Clarifica porqué estás lanzando un nuevo producto ¿Para quién es? ¿Cómo vas a contactar y comprometer nuevos consumidores?
  • Te fuerza a diseñar una experiencia de consumo ¿Qué problemas podrían tener los clientes? ¿Cómo los deleito? ¿Cómo me recomendarían?
  • Es un lenguaje común en tu organización o equipo. Cualquier nueva idea se sostiene o aporta a alguno de los pilares de una estrategia más grande: Go-To-Market
  • Te orienta a definir los KPI de éxito, si te interesa conocer más de este tema revisa esta columna

5 etapas a considerar en una Go-To-Market Strategy

1) Identificar el contexto competitivo

Existen muchos marcos de trabajo para GTM, en realidad algunas invitan a plantear hasta más de 100 preguntas para un lanzamiento. Con la experiencia, podemos decirle que un punto de partida pudiera ser una alteración de la matriz de  Ansoff.

Esta herramienta nos ayuda a identificar si nuestro nuevo lanzamiento va dirigido a un mercado nuevo o existente. Así mismo si el mercado al que vamos a destinar esta innovación ya existe o no existe para nuestra organización. A partir de ello se establecen un par de acciones sobre la cuál se puede desarrollar un plan completo: Penetrar un mercado existente, desarrollar nuevos productos o diversificación.

El pase de diapositivas requiere JavaScript.

Un spin-off o alteración del modelo también podría cuestionar sobre cómo este nuevo lanzamiento de producto-servicio afecta al ecosistema. Y con esto nos referimos a que podríamos pensar cómo Google o Apple analizaría algún nuevo lanzamiento. Por ejemplo, Google Home, asistente virtual que ejecuta tareas, es un nuevo canal de contacto con el ecosistema de Google. Desde ahí puedo interactuar con el mercado de apps, con los motores de búsqueda en Google, sus métodos de págo, entre otros.

En una época donde las organizaciones ya no sólo crean productos o mercados… ahora buscan ensamblar «ecosistemas» competitivos es importante en un inicio de nuestra estrategia GTM identificar cómo estamos jugando en estas 3 dimensiones.

2) Investigar y planificar

Generalmente los GTM justifican una inyección de inversión en tiempo o dinero a un proyecto. Para esto es importante poder presentar un plan claro y bien investigado alrededor del problema que vamos a resolver con nuestro nuevo lanzamiento.

Resolver preguntas como ¿Cuál es el impacto? ¿Cuál es la molestía que tiene mi mercado con las soluciones actuales? ¿Cómo se ve y piensa la persona que me compraría? ¿En qué zonas geográficas los puedo encontrar? entre otras son importantes

Para esto recomendamos el marco de trabajo de «Design Thinking» , los 3 circulos donde analizamos: Deseabilidad, Factibilidad y Viabilidad de nuestro proyecto.

Datlas_DesignThinking_v2

En general, con el uso de datos y análisis adecuado, esto nos ayuda a mapear los costos, potenciales ingresos y sobre todo el apetito del consumidor para diseñar la experiencia ideal de consumo.

Te puede interesar nuestro podcast de cómo monitorear tendencias.

3) Desarrollar un mapa de ruta de producto

Los proyectos ponen a prueba nuestra capacidad de administrar personas, recursos y tiempos. Un mapa de ruta de producto nos da una visualización constante sobre la salud del proyecto. Al mismo tiempo plasma los «acuerdos» en tiempos a los que se llega con los participantes del equipo y las fechas compromisos.

Datlas_product-roadmap-example2

Datlas_Promo_Facebook_Suscribe

4) Desarrollar una estrategia de marketing

De manera más específica que en el paso 2) en esta etapa profundizaremos en temas de Precio, Producto, Plaza, Promoción, Personas, Procesos  y posicionamiento. Justamente nos referimos a las 7ps de desarrollo y retención de clientes.

La sección más motivante y donde ocupamos equipos multidisciplinarios es el desarrollar tu avatar o perfil de comprador. Tratar de pensar qué edad tiene, a qué se dedica, qué problemas tiene, cómo los resuelve hoy y cómo le gustaría resolverlo.

Los trabajos de encuestas  y síntesis de nuestra investigación del paso 1) son útiles. Siempre pensando que nos van a ayudar en nuestra estrategia de marketing. Si quieres saber más sobre cómo realizar encuestas y pruebas de concepto te puede interesar nuestro podcast sobre esto.

Desarrollar estrategia de precios, resolver si tu modelo será de suscripción, pago bajo demanda, pago por uso de servicio, entre muchas opciones que existen.

Datlas_7ps

5) Asegurar una experiencia de consumidor fuerte y con datos para retroalimentar

Otra etapa importante es cómo asegurar una experiencia del consumidor saludable y que además genere los suficientes datos para permitirnos mejorar constantemente.

En este sentido, por ejemplo, en una compra de tienda en línea cuántos contactos tendremos con el consumidor. Cuando visita la tienda, cuando llena su carrito, cuando paga, cuando le enviamos su producto, cuando lo recibe y cuando nos da su opinión sobre lo que recibe. Pero qué pasaría si agregamos una promoción ¿Cómo hacemos que se entere? o si cierta transacción está ayudando a una ONG ¿Cómo se lo comunicaríamos?

Así como en el comercio electrónico, en cualquier tipo de transacción y consumo de nuestros productos hay que diseñar la experiencia.

Datlas_DiseñoDeExperiencias

Conclusión

Si bien muchos detalles quedaron abiertos a la imaginación de cada gestor de iniciativas, la estrategia Go-To-Market ofrece distintos marcos de trabajo para maximizar la probabilidad de éxito de nuestras iniciativas.

Se deben de considerar 3 dimensiones: Cómo está la competencia relativa a nuestro producto, qué tan desarrollado está el mercado y a la construcción de qué ecosistema estamos aportando.

Finalmente, si se trabaja en equipo, es recomendable que cada una de las etapas venga con sus entregables, KPIs de impacto y datos para retroalimentar mientras el proceso está en curso.

Datlas_GTM_Model_Delivery

Datlas_Promo_Podcast_Suscribe

Gracias por leernos, recuerda compartir y si te interesan este tipo de servicios nos puedes contactar en direccion@datlas.mx

Saludos

-Keep it weird-

Equipo Datlas

Fuentes

Ver en Medium.com

Categorizando las zonas con más choques y siniestros en Nuevo León – Datlas Research

Cuarentena por Coronavirus y Covid-19… y el placer más grande que algunos tuvimos fue la oportunidad de visitar el supermercado, la única salida obligada, con muy poco tráfico vehicular en la ciudad.  Menos tráfico está relacionado con menos probabilidad de choques y siniestros así que nos encontramos con vialidades bastante fluidas.

Datlas_Blog_Promo_SuscriberFree

Al tener un periodo de más tranquilidad en los flujos y el tránsito social nuevas iniciativas del gobierno y el sector privado han emergido. Por ejemplo,  lanzamientos de ciclovías, arreglar vías principales y carreteras de algunos municipios y ,por qué no, enfocarse mejorar el tránsito en las rutas donde más choques se registran. En esta columna utilizamos históricos de 3 años de choques para Nuevo León para identificar y «categorizar» las zonas de más choques en el Estado. Los ejemplos que veamos son aplicables a nivel nacional y es una propuesta de enfoque de análisis para gobiernos y aseguradoras.

¿Cómo funciona?

El análisis comienza con una base de datos, similar a la que usamos en 3 mitos y realidades de choques en NL, pero enfocado en un registro de choques por ubicación con detalles del tipo y modelos  de vehículos. En tipo, el detalle que tenemos son choques de auto, camión, camión ligero y motocicleta. En modelos tenemos choques de autos desde 1950 hasta el 2019.

Para fines prácticos, generamos 2 variables dicótomas o dummy. Una que señale con 1 cuando el choque haya sido de auto y 0 cualquier otro tipo de vehículo. Segundo una variable en donde si el choque fue por un modelo reciente de auto, entre el 2015 y 2019, y 0 siendo cualquier otro modelo menor o igual al 2014.

¿Cuáles podrían ser los pasos a seguir en un análisis

Para este ejercicio preferimos usar nuestra herramienta de mapas que, de manera más clara que un archivo de excel, nos permite identificar de inmediato el lugar de los hechos. De esa manera podemos construir los siguientes journeys:

1) Enfocarnos en las zonas de alta cantidad

El pase de diapositivas requiere JavaScript.

La base de datos original tiene los choques por coordenada, sin embargo hicimos un trabajo de agregación de datos ubicando el acumulado de choques dentro de una cuadrícula en todo el mapa de Nuevo León. Cada punto representa una geometría con un área de 5km cuadrados en donde ocurrieron los choques. Si visualizamos en un mapa esta información con gráficos de «burbujas» podremos identificar en que zona de la ciudad se han acumulado la mayor cantidad de choques.

33% de los choques en el Estado han ocurrido en 25 kilómetros cuadrados.

Datlas_Covid19_Choques

Datlas_blog_choques_casos_criticos

Datlas_Promo_Facebook_Suscribe

2) «Categorización» de todos los choques en modelos de auto recientes

El pase de diapositivas requiere JavaScript.

Si quisiéramos enfocarnos en las zonas donde hay más choques acumulados podemos usar la gráfica de puntos de dispersión encima del mapa. Preferimos la geometría tipo cuadros para poder identificar en rojo las zonas de mayor enfoque. Además generamos una variable de proporción de choques de modelos recientes. De esta manera podemos localizar de maneras inmediata los siniestros de casos de 2015 a la fecha.

3) «Categorización» de modelos más siniestrados por regiones

El pase de diapositivas requiere JavaScript.

Finalmente podemos aumentar la resolución convirtiendo la variable modelo en numérica y promediando el año de los vehículos que más han chocado en los últimos 3 años.  En este caso detectando las zonas donde chocan los autos de años más recientes. Sorprendentemente no se percibe que exista una relación entre nivel socieconómico y año de los autos chocados.

Video de navegación

Este tipo de iniciativas y plataformas podrían ser utilizadas por aseguradoras para planificar sus estaciones temporales donde envíen a sus flotillas para que puedan llegar a los choques con menor tiempo. Elevando así el nivel de servicio. Por otro lado podrían mapear cambiar los múltiplos en sus pólizas considerando si las zonas donde transita habitualmente un asegurado son de alto o bajo riesgo de choques.

En el caso de gobiernos, podrían evaluar adecuar señalizaciones de tránsito en las zonas de mayor riesgo así como mantener cerca a oficiales de tránsitos cuando ocurran este tipo de percances.

Datlas_Promo_Podcast_Suscribe

Hasta aquí la columna de hoy, gracias por leer y si te interesó no dudes en difundirla con tus contactos y aseguradoras. Te recomendamos también visitar nuestro podcast «Café de Datos»donde estamos publicando semanalmente capítulos donde hablamos de analítica y estrategias de datos.

Saludos

Equipo Datlas

– Keep it weird –

Ranking de Dashboards y Reportes por COVID-19 -INVESTIGACIÓN DATLAS

http://www.datlas.mx¿Cómo va avanzando tu análisis de datos en tu cuarentena? ¿Qué tal la numeralia? ¿Nuevos Datos? ¿Algunos nuevos descubrimientos? En esta ocasión nos toca compartir un poco a nosotros de las excelentes respuestas de la comunidad «datera». En esta columna enlistaremos 9 dashboards/reportes usados para difundir información alrededor del COVID-19

Datlas_Blog_Promo_SuscriberFree

Algunos requisitos para que pueda calificar un  dashboards COVID-19 en el ranking es que 1) Tienen que ser actualizados al menos una vez al día, 2) Las visualizaciones integran datos de cantidad de personas infectadas y fallecidas y 3) Pueden representar cualquier cobertura geográfica. Los criterios para el ranking fueron: Atractivo de visualización, Claridad de la información e información fidedigna. Algunos «plus» es que tengan mapas y que que haya un poco de análisis dentro del tablero.

9) Facebook – Harvard

Datlas_Facebook_Harvard

Este mapa es parte del programa «Data for Good». Se basa en información desarrollada por la Red de datos de movilidad COVID-19, coordinada por «Direct Relief» e investigadores de Harvard T.H. Chan School of Public Health, utilizando datos agregados de movimiento de población del programa Data for Good de Facebook.

  • Pros: Mensaje claro, aprovechamiento de datos de movilidas
  • Cons: Sólo USA, complejo de llegar a conclusiones, resolución a nivel Estatal

Liga: https://www.covid19mobility.org/dashboards/facebook-data-for-good/

8) Google Mobility Changes

Datlas_Google_MobilityChanges

Google liberó datos de movilidad para todo el mundo. Si quieres conocer el detalle de la iniciativa puedes revisar nuestro blog sobre el tema.

  • Pros: Información sintetizada con claridad, cobertura mundial donde Google opera, con el tiempo especificaron a nivel Estatal, al menos para México fue así
  • Cons: Son reportes no dashboards, actualización semanal no diaria, la información es en general de tráfico pero no podemos diferenciar entre tráfico a pie o en auto y no cruzan o analizan versus casos de Covid-19, una chamba que nos dejan a todos los analistas para hacerlo por separado

Liga: https://www.google.com/covid19/mobility/

7) Apple Movement

Datlas_Apple_Movement

Similar a Google, la empresa Apple liberó datos de movilidad generado por dispositivos que utilizan sistemas operativos IOS. La resolución dividió el tráfico entre coche, a pie y transporte público. También fueron los primeros que habilitaron la descarga CSV.

  • Pros: Diferenciación por tipo de tráfico, datos de movilidad actualizados de manera recurrente, descarga en CSV con detalle de información histórica
  • Cons: No hay cruce con datos de covid-19, no sugiere conclusiones y se queda a nivel país. al menos para México así funciona

Liga: https://www.apple.com/covid19/mobility

6) Facebook – Carnegie Mellon

Datlas_Facebook_CarnegieMellon

Los equipos de Facebook son variados y se dieron el lujo de trabajar con distintos laboratorios de datos de las mejores universidades del mundo. En este Caso, con Carnegie Mellon, lograron una mejor dinámica que el mapa de Harvard.

  • Pros: Selección dinámica de revisión por día desde el Dashboards, selección entre múltiples indicadores del Covid, bastante documentación sobre cada indicador, cruce de información
  • Cons: Sólo para Estados Unidos y la máxima resolución de los datos espaciales es nivel Estado

Liga: https://covid-survey.dataforgood.fb.com/#3/35/-75

Datlas_Promo_Facebook_Suscribe

5) Covid Visualizer

Datlas_Covid_Visualizer

Si hablamos de visualizaciones atractivas tenemos que voltear a ver el globo generado por el portal «Covid Visualizer» que realmente dedicó un dominio en internet exclusivamemente para este tema. Se aprecia el planeta tierra y es muy sencillo navegar entre países

  • Pros: Navegación sencilla y rápida, datos agregados con los distintos estados con los que se está midiendo el COVID-19 y actualización cada par de horas
  • Cons: Resolución a nivel País, no se puede jugar con fechas, es decir sólo se ven datos agregados a la fecha de consulta

Liga: https://www.covidvisualizer.com/

4) Our World in Data

Datlas_OurWorldInData_

Esta es la visualización que como Datlas más hemos usado en nuestros webinars y conferencias para sensibilizar a las audiencias la velocidad a la que los casos del COVID-19 crecen en relación a China

  • Pro: El manejo temporal es excelente , se pueden generar animaciones dentro de la herramienta, filtrar para cualquier país, la descarga en CSV es muy ágil y sencilla
  • Cons: Solamente se miden casos confirmados, no otro indicadores necesariamente, un par de veces nos encontramos «otros datos» en relación a la prensa nacional (caso México) y podrían usar colores más contrastantes que te ayuden a diferenciar mejor los países en el análisis

Liga: https://ourworldindata.org/grapher/covid-confirmed-cases-since-100th-case?country=ARG+BOL+BRA+CHL+COL+ECU+MEX+PER+URY+VEN

3) New York

Datlas_NYork_Dashboard

Este es otro de los casos de dashboards animados alrededor del tiempo

  • Pros: Brinda un enfoque muy claro a los países con más casos afectados, se miden 3 tipos de indicadores, entre ellos dónde hay más recuperados
  • Cons: Resolución a nivel país, sólo se usa un color en los gráficos y las dimensiones no están bien actualizadas para la cantidad de casos a la fecha

Liga: https://www.nbcnewyork.com/news/national-international/map-watch-the-coronavirus-cases-spread-across-the-world/2303276/

2) WHO: Organización mundial de salud

El pase de diapositivas requiere JavaScript.

Una de las obras de arte en lo que visualizaciones refiere es este tablero que es referencia mundial sobre los casos del Covid-19. Lo lamentable es que los datos han sido muy cuestionados

  • Pros: Variedad de visualizaciones, gráficos y mapas, filtros entre indicadores, contraste por regiones geo-políticas, se puede descargar datos en CSV y los colores muy bien implementados
  • Cons: No aplica alguno según los criterios establecidos. Deseable es que los usuarios pudieramos subir de resolución a nivel Estatal por país

Liga: https://covid19.who.int/

1) Johns Hopkins Covid

Datlas_Johns_Hopkins_Covid19_

Finalmente la joya de la corona, el ARCGIS que por primera vez nos dió una explicación del COVID-19 desde que se llamaba Coronavirus.

  • Pros: Cuenta con más indicadores que cualquier otro dashboards, casi cada mes le añaden nuevas visualizaciones e integra una sección de tendencias críticas que llevan a nuevos análisis y hallazgos
  • Cons: Sería genial si pudieramos ver estos datos a nivel Estado o delegación. También de alguna manera integrar las conclusiones de los análisis de movilidad de grandes compañías como Facebook, Apple o Google

Liga: https://coronavirus.jhu.edu/map.html

Datlas_Promo_Podcast_Suscribe

Hasta aqui nuestro ranking ¿Cuál es tu orden? ¿Cómo calificarías? Si te sigue interesando qué otros nuevos aplicativos de analítica pueden impulsarse por el COVID-19 te invitamos a conocer nuestro mapa en https://datlas.mx/COVID-19/

Deja tus comentarios y comparte con tus colegas que son amantes de los Dashboards.

Saludos

Equipo Datlas

-Keep it weird-

5 errores al analizar bases de datos inmobiliarias y cómo evitarlos – INVESTIGACIÓN DATLAS

Desde hace un par de años, como lo contamos en la experiencia PROPTECH en México, hemos generado grandes aprendizajes en el sector inmobiliario, sobre todo analizando información de precios de propiedades y generando modelos matemáticos con esta información.

Datlas_Blog_Promo_SuscriberFree

Actualmente nos encontramos mejorando nuestro modelo de valuación de inmuebles, que documentamos en esta columna, y en esta columna queremos compartir nuestros aprendizajes modelando algunas bases de datos inmobiliarias. Sobre todo con enfoque a qué errores evitar en el análisis de este tipo de información. No seremos tan técnicos, pero si es necesario que para comprender la lectura tengas un conocimiento introductorio de estadística.

Para este ejercicio tomaremos de referencia una base de datos de casas y apartamentos con más de 16,000 ubicaciones para Guadalajara, Jalisco, México. La información que usaremos contiene variables como: Ubicación, Cantidad de recámaras, baños, tamaño de construcción, tamaño de superficie, Edad de inmueble y un listado de amenidades asociada al inmueble.

5 Errores a evitar

1) Usar datos sin limpiarlos previamente

También te puede interesar, metodologías para análisis de datos

  • Es importante generar un diagnóstico a la base de datos y entender muy bien cuales son los problemas que pudiera generar en el modelo que queremos trabajar
  • SI es necesario, hay que preparar las variables para poderlas manipular exitosa mente. Por ejemplo, si existe algún valor numérico, hay que asegurarnos de que esté correctamente declarado como numérico. Lo mismo cuando sean textos, como caracteres
  • Muchos analistas primerizos no consideran un proceso exhaustivo de limpieza de datos. Por ejemplo, si estamos generando un modelo que nos va a ayudar a predecir precios de bienes raíces es importante que el insumo tenga correctamente registrado los valores de precio. Para esto podemos quitar los campos vacíos y evaluar y la base sigue contando con buen poder explicativo. En este caso quitamos todos los valores en 0, menores de 0 y NAs
  • Repetimos el proceso para cada una de las variables que quisiéramos validar en el modelo

Datlas_Str(BD_1

2) Manejar información no homologada

  • Hay algunas variables que pueden ser estandarizadas o escaladas para trabajarlas en contexto de análisis. Para variables de inmuebles es importante entender que existe una relación positiva entre el tamaño de una propiedad y su precio. Entre más grande sea una casa o un departamento, su precio potencial será más alto
  • En ese sentido podemos generar una nueva variable dividiendo el precio entre los metros cuadrados de superficie de cada inmueble. Así podemos obtener el precio por metro cuadrado, que sería una medida más estándar para contemplar en el análisis
  • Repetimos este proceso generando variables dummies o dicotómicas (1 cuando aplique y 0 cuando no) para la presencia de amenidades como: Albercas, Seguridad, Terraza, Estacionamiento y/o Elevador

Datlas_Str(BD_2

Atención en las dummies que tienen valores entre 1 y 0

Datlas_Dummies

3) No diagnosticar y remover correctamente los outliers o anomalías

También te puede interesar ¿Cuánto cuesta una buena ubicación para tu negocio?

  • Este paso es uno de los más complejos, una anomalía puede ser interpretado como valores extremos en variables. Por ejemplo, una casa tradicional podría tener de 2 a 4 habitaciones. Un departamento entre 1 y 2. Si encontramos registros con valores por encima de 10 habitaciones seguramente pudo haber sido un error de registro.
  • En el mismo sentido variables como precio, edad de inmueble, baños y tamaños de superficie deben de ser revisados a detalle para remover los valores extremos a la alza y a la baja. Un buen método es graficando un boxplot donde podamos visualizar la distribución por clases, en este caso por tipo de residencia entre casas, departamentos y condominios. Los puntos extremos o fuera de la caja podrían ser considerados como «outliers», por lo mismo hay que diagnosticarlos más a detalle
  • ¿Cómo se hace? Entre algunos métodos, de los más sencillos de explicar es utilizando el rango intercuantil. O prácticamente el equivalente a lo que está dentro de la «caja» en una gráfica de boxplot (entre el cuartil 3 y el cuartil 1). Esto, sin embargo, significaría quedarnos con el 50% de los valores. Eso sería funcional si se tratara de datos que provienen de ejercicios con más margen de error, como el de  un experimento humano, pero en esta caso los registros se hacen por sistema asi que el error de registro podría ser minimizado
  • Para estos valores, podemos generar deciles por niveles de precio. De esta manera priorizar los valores entre el decil 10% y 90%. Nos aseguramos que los valores extremos queden fuera graficando en un boxplot nuevamente y validando que haya un mejor ajuste en la distribución

El pase de diapositivas requiere JavaScript.

4) Ignorar la propiedad geoespacial de las bases de datos con direcciones

  • Como mencionamos al inicio, una base de datos inmobiliaria tiene atributos geográficos como direcciones o coordenadas. En este caso estamos trabajando con coordenadas y lo primero que recomendamos hacer es asegurarnos de quedarnos con los registros que solamente están en la región que queremos analizar en el modelo. Esta limpieza puede ser manual o usando técnicas más sofisticadas que implican el uso de shapefiles a nivel municipio o Estado
  • Mucha estadísticas inmobiliarias están hechas a nivel código postal. Por ejemplo te dicen cuál es el precio promedio por CP o el tamaño promedio de las casas. La realidad para México es que podemos encontrarnos con disparidades, una casa del más alto nivel socioeconómico y a dos cuadras casas de tipo popular. En este sentido para capitalizar correctamente estos estadísticos debemos de generar zonas o clústers dentro de una misma ciudad de casas que compartan ciertas características
  • A partir de esto se pueden generar valores como valor promedio por clúster
Ejemplo de mapeo de base de datos inmobiliaria sin limpiar los datos mal registrados
Ejemplo de visualización de base de datos inmobiliaria sin limpieza suficiente

Datlas_Blog_Promo_SuscriberFree

5) Dejarse llevar por el primer resultado que te haga sentido

  • Una vez con la información limpia, estructurada y homologada podemos explorar la bases datos de distintas maneras. Lo tradicional es generar histogramas, gráficos de dispersión y/o correlaciones para entender qué está pasando con las variables. Para esto, les recomendamos la paquetería de GGALLY en R para echarle un vistazo a las variables numéricas de manera general
  • Por ejemplo, encontramos entonces una correlación entre baños y precio ¿Vale la pena? Significa que la cantidad de baños está relacionado el precio. O realmente es un efecto estadístico porque todas las casas «caras o de precios altos» tienen más de 5 baños. No podemos sacar suficientes conclusiones y un mal analista sacaría conclusiones con estas líneas tan débiles de hallazgos. Se requiere profundizar

Datlas_Ggally2

  • Podemos estudiar otras opciones de métodos de relación entre variables como una regresión. Buscamos la causas que provocan variaciones en el precio revisando variables como: Recámaras, Baños, Tamaño de terreno, tamaño de construcción, edad del inmueble y amenidades.
  • Pondremos atención a los signos de los estimadores, tratando de entender que tiene efectos a favor y en contra del precio. Por ejemplo, en este caso que la casa tenga Terraza o Alberca incrementa su valor en un monto considerable. También revisaremos el valor de ajuste R2 y la significancia total del modelo.

El pase de diapositivas requiere JavaScript.

Finalmente una vez establecido el modelo podríamos generar algunos ejercicios de predicción. Poner a prueba un inmueble existente o uno hipotético y con estos ejercicios darnos cuenta si el modelo está listo o requiere seguir siendo modificado

Datlas_predicciones

Hasta aqui el ejemplo de la columna.  En la práctica nuestro modelo utiliza modelos más sofisticados que los «lineales» porque, como podrán haber observado en los gráficos previos, no todas las relaciones son lineales. Pero quisimos explicarlo con regresiones porque pensamos que es la manera más fácil de ejemplificar un caso de uso.

Datlas_Promo_Facebook_Suscribe

Si te gusto el blog y crees que les puede ser de utilidad a tus colegas que analizan datos no dudes en compartirlo. También si conoces algunos otros errores adicionales a evitar recuerda dejar aqui tus comentarios. Por último recuerda seguir nuestro podcast «Café de Datos» que el día de hoy lanza capítulo con ISAAC CARRADAex IBM  hablando de analítica para impulsar ecossitemas en México.

11. Invitado Isaac - Analítica de datos para impulsar ecosistemas de desarrollo ¿Cuál es la oportunidad en México

Saludos

Equipo Datlas

-Keep it weird-

Análisis de mercado con Inteligencia Artificial – DATLAS INVESTIGACIONES

Esta mañana tuvimos la oportunidad de realizar un Webinar Gratuito acerca de como estamos usando inteligencia artificial para realizar análisis de mercado de una forma ágil y sencilla aprovechando la gran cantidad de información disponible. Presentamos a Laura, nuestra asistente virtual. Si no tuviste oportunidad de asistir ¡no te preocupes! en esta columna te vamos a contar un poco de lo que estuvimos viendo. Si te interesa aprovechar nuestros Webinars gratis no olvides suscribirte en nuestra página web.

free_Suscriber

En primer lugar, comenzamos por definir el concepto de inteligencia artificial (I.A.). Sin duda no es un termino ajeno hoy en día, sino al contrario, se ha puesto tan de moda que muchas personas lo han escuchado, pero pocos saben con exactitud que es a lo que se refiere. La definición de Bill Bulko es una de nuestras favoritas: “La inteligencia artificial es el arte de hacer que las computadoras se comporten como aquellas que vemos en las películas”. Sin duda no es una definición académica, pero se acerca mucho a la realidad, sobre todo en años recientes donde hemos visto numerosas películas que tratan este tema. La realidad es que una definición más científica define la inteligencia artificial como un “programa de computación diseñado para realizar determinadas operaciones que se consideran propias de la inteligencia humana, como el autoaprendizaje”

datlas_mx_webinar_laura_IA

Ahora bien, la inteligencia artificial no es algo que haya nacido ayer, como dicen. Este tipo de programas computacionales tuvo sus inicios en los años 50´s con el famoso Alan Turing y su test para identificar si una computadora es capaz de “pensar como un ser humano”. Lo que también es verdad es que en la época de Alan Turing el término inteligencia artificial no existía siquiera, fue hasta 1956 que John McCarthy acuña el término y se comienza a utilizar. A lo largo de estos más de 60 años esta tecnología ha evolucionado desde los primeros chatbot, robots, hasta IBM Deep Blue que logró vencer al campeón de ajedrez. Esto nos lleva a otro punto importante, dentro de la inteligencia artificial existen distintos tipos o subgrupos dentro de los que destacan precisamente la robótica, los sistemas expertos, el procesamiento de lenguaje natural, visión computacional y machine learning. En este caso nosotros nos enfocamos en este último subgrupo mencionado: machine learning, que en su definición simple se entiende como “el estudio de los algoritmos computacionales que mejoran a través de la experiencia”

datlas_mx_webinar_laura_machine_learning

Después de esa rápida introducción al tema de inteligencia artificial es momento de platicar un poco del proceso que se lleva a cabo para poder generar este algoritmo que nos ayuda finalmente a realizar los análisis de mercado de forma automática. Para ello nosotros hemos personalizado y adaptado la técnica académica de CRISP-DM a la metodología Datlas y la hemos bautizado como Laboratorio de Datos. Este proceso consta de 6 actividades claves:

  • Extracción
  • Integración
  • Clasificación
  • Visualización
  • Entrenamiento
  • Reporteo

datlas_mx_webinar_laura_crisp_dm

Durante la primera fase del proceso lo que hacemos es todo el trabajo de minería de datos, es decir, nos conectamos a las diversas fuentes de información abierta, públicas, privadas y, de ser necesario, integramos también datos internos del cliente.

Pasando a la segunda etapa de integración, lo que sucede es que aquellas diversas fuentes de información y datos que ya tenemos se organizan y se “traducen” para lograr homologarlos bajo un mismo “idioma” que en nuestro caso es el componente geográfico o la georreferencia como le llaman técnicamente.

Enseguida viene la parte de clasificación, que muchas veces es uno de los pasos más subvaluados pero es de los más importantes porque es en esta parte en donde pasamos de los simples datos y de la información a la preparación de la interfaz de usuario, al diseño centrado en el consumidor final. La clasificación nos sirve para poder entregar datos a nivel agregado o a nivel granular dependiendo de su relevancia, por ejemplo: si tenemos datos de los check-ins en redes sociales, en esta fase es donde decidimos mostrarlos a través de mapas de calor clasificados por tipo de actividad, en vez de mostrarlos quizá como una masa de puntos individuales dentro de una geografía.

Una vez clasificado todo, pasamos a la parte del cifrado visual en donde elegimos las distintas maneras de presentar la información y se termina de gestar todo ese diseño que se planeo en la parte de clasificación.

Finalmente llegamos al penúltimo paso que es el de entrenar el algoritmo. En este punto es importante entender que cuando hablamos de inteligencia artificial hay distintos tipos de entrenamiento que se pueden ejercer sobre un algoritmo de este estilo. En general se clasifican de dos formas: entrenamiento supervisado y entrenamiento no supervisado.

datlas_mx_webinar_laura_entrenamiento_IA

Cuando hablamos de entrenamiento supervisado estamos básicamente hablando de tomar el set de datos que tenemos, extraer una muestra del 80%, por ejemplo, indicarle a la máquina cual es la variable de respuesta o lo que quiero calcular, estimar o predecir y pedirle que ajuste un modelo con esas variables. A partir de esto se usa el 20% restante de los datos para probar su asertividad del modelo y se realizan ajustes iterando esta práctica. Por otro lado, el aprendizaje no supervisado es aquel que permite a la maquina “deducir” o aprender a partir de un set de datos sin decirle exactamente que variable de respuesta esperamos o que tipo de ejercicio se quiere realizar. Para ponerlo en perspectiva, en 2016 Microsoft utilizó un entrenamiento no supervisado para generar su chatbot Tray y lo puso a aprender por si solo en base a las conversaciones e información de redes sociales. Este tipo de experimento resulto un tanto controversial ya que Tray se volvió racista y extremista debido a la exposición que tuvo a gran cumulo de datos e información de esta índole. En nuestro caso claramente, por el contexto de negocios utilizamos un aprendizaje supervisado.

free_Suscriber

Finalmente terminamos la sesión platicando acerca de un caso aplicado que tuvimos con un cliente en Nuevo León que nos planteó el reto de analizar una ubicación en el centro de Monterrey para descifrar cual podría ser el tipo de negocio ideal que pudiera posicionar en esa ubicación que pudiera estar generando un cierto monto de ganancias mensuales. Sorprendentemente cuando Laura realizó el análisis de entorno descubrió que dentro de la dinámica de la zona había un hospital que básicamente fungía como el generador de tráfico más fuerte y que había hecho que la zona tomara una vocación distinta en los últimos años. A partir de este hallazgo Laura fue a realizar un análisis de entorno de los principales hospitales públicos y privados de Nuevo León para derivar un top 10 de negocios que habitualmente se sitúan alrededor de un hospital y contrastarlo contra el entorno que estaba analizando para identificar aquellos tipos de negocios que tuvieran oportunidad de posicionarse en la ubicación definida por el cliente.

De esta forma logramos entregar al cliente 3 opciones de negocio con un cierto nivel de potencial económico que cumplía las restricciones citadas originalmente y ayudarlo a tomar la mejor decisión a través del uso de tecnología y apalancados en la gran cantidad de datos e información disponible actualmente. Si quieres conocer un poco más acerca de esta experiencia te invitamos a ver el video de testimonio de nuestro cliente

datlas_mx_webinar_laura_testimonio_barras_cardan

Finalmente te invitamos a mantenerte en contacto para recibir noticias de los siguientes Webinars y muchas sorpresas más que tendremos para ti. Hasta la próxima.

@DatlasMX

CORONAVIRUS PT. 2/2 – CONSTRUYENDO UN MODELO DE RESPUESTA INMEDIATA CON DATOS GEOESPACIALES (DATLAS RESEARCH)

Si quieres visualizar esta plataforma revisa el video aqui. Para acceder directamente a la plataforma de la que hablamos en este blog escríbenos tus motivos a direccion@datlas.mx . Agradecemos a los medios que nos han difundido:

El pase de diapositivas requiere JavaScript.

Esta es la segunda parte de la serie de blogs del #COVID-19. Puedes encontrar el primer capítulo en: El efecto dominó de una pandemia en la economía regional. Vale la pena que le eches un  vistazo antes, para entender mejor el riesgo de no tomar las medidas adecuadas en épocas del Coronavirus.

Datlas_Blog_Promo_SuscriberFree

Lo que sigue,inspirados en la herramienta GOTHAM de la empresa PALANTIR utilizada en el Huracán Florence en el 2018 para desplegar equipos de rescate en las zonas más marginadas del Norte y Sur-Carolina en esta columna generaremos un postulado de cómo podríamos construir un modelo de respuesta inmediata para México. Específicamente utilizando datos de Nuevo León.

Usaremos el modelo Datlas como ejemplo

Datlas_metodo_laboratoriodedatos

Puedes leer más de esta metodología en este blog.

Diagnóstico del problema y objetivo

Un modelo de respuesta inmediata, en el contexto de datos geo-espaciales, contextualiza el entorno y la situación de estudio (En este caso el COVID) para enfocar la atención hacia las ubicaciones más vulnerables en caso de una catástrofe. En situaciones donde el tiempo y la dispersión juegan un rol crítico, es importante tener a la mano herramientas que soporten la labor de enfoque hacia la infraestructura y cuerpos de rescate.

Datlas_Promo_Facebook_Suscribe

El objetivo de la investigación será identificar en un plano geográfico  los puntos de concentración de personas más vulnerables para que en caso de una catástrofe sanitaria tengamos más claridad hacia los puntos de despliegue de equipos de rescate.

Datlas_Blog_Modelorescate_Covid

Criterio y extracción de datos

Hemos estado revisando que las poblaciones más vulnerables en el COVID-19 son primeramente mayores a 60 años. Sumado a esto las viviendas en niveles socieconómicos bajos tendrían más restricciones de acceder a recursos para protegerse por su cuenta. En muchos programas sociales se utiliza el índice de marginación nacional de la CONAPO (véase al final en fuentes) como medida de vulnerabilidad. Esto ya que representa una medida-resumen que permite diferenciar entidades federativas y municipios de acuerdo con las carencias que padece la población, como resultado de la falta de acceso a la educación, la residencia en viviendas inadecuadas, la percepción de ingresos monetarios insuficientes y las relacionadas con la residencia en localidades pequeñas (CONAPO, 2018).

Otro tema que hace sentido contemplar es la cantidad de ubicaciones de servicios de salud como clínicas, laboratorios, farmacias, hospitales y similares que pudieran ponderar la vulnerabilidad de estos grupos. Usaremos datos del DENUE INEGI, así como Google places para corroborar estas ubicaciones.

Integración y clasificación de datos

Clasificamos las variables en distintos grupos:

  • Personas mayores a 60 años (Dado que el virus es más letal en este grupo de edad)
  • Indice de marginación (Tendrían mayores restricciones para cuidarse por su propia cuenta)
  • Promedio de habitantes por vivienda (Mayor indice de propagación y contagio casero)
  • Población Total (Potencialmente, los cuadros de la ciudad donde una actividad de rescate impactaría más personas)
  • NSE preponderante (Buscaríamos priorizar NSE bajos, dado su vulnerabilidad)
  • Servicios de Salud (Farmacias, clínicas, asilos, hospitales y similares)

En este caso, el orden de las clasificaciones representa lo que teóricamente puede representar un mayor enfoque para grupos  vulnerables. Es decir, estos pudieran ser criterios de enfoque para equipos de rescate

Datlas_Blog_Modelorescate_Covid_2

Modelaje y entrenamiento

Al no ser especialistas en temas de salud, lo más correcto es compartir este mapa con especialistas que puedan darnos más sensibilidad de campo sobre qué otras variables contemplar o cuál debería ser la prioridad. A partir de esto podríamos entrenar un modelo más especializado.

Para fines de este ejercicio y dándonos un poco de licencia para soñar, podríamos imaginar que los efectos de las variables en una ecuación podrían ser sumados y otros multiplicados. Algunos sería relevante contemplarlos con crecimiento exponencial. Los matemáticos son los encargados de esto. Cuando nosotros generamos modelos comenzamos de lo más básico y, de ser necesario, en cada etapa del proceso elevamos un poco el modelo de complejidad.

Simplificando, una vez estandarizadas las variables, podríamos ir modelando un indicador que agregue el efecto de distintas variables

Datlas_Blog_Modelorescate_Covid_3

Datlas_Promo_Youtube_Suscribe

Visualización

¿Cuál sería el efecto final? ¿Cómo se vería? La mejor forma de enfocar en este tipo de mapas es con mapas de calor. Eso nos permitiría identificar el efecto de una serie de variables de manera inmediata.

Ver video: https://youtu.be/4OIFN86nz5U

Reporte de acciones a tomar

  • Colaborar con expertos regionales para avanzar en establecer protocolos de rescate y  árboles de decisión de priorización en cuestión de atención sanitaria
  • Destacar zonas específicas para que se realicen revisiones periódicas, mediciones de temperatura, entrevistas a miembros de hogares en las manzanas indicadas y similares
  • Acercar infraestructura médica temporal de apoyo en caso de que el Covid crezca a una fase 2 ó 3
  • Ceder un contacto directo de atención para esta zona específica, sobre todo cuando son mayores de 60 años
  • Generar un plan de mediano plazo para intervenir esta zona, sobre todo ante los efectos económicos negativos que probablemente ocurran en un par de meses

Futuras investigaciones

En futuras investigaciones y con datos como los códigos postales o polígonos donde hay más infectados podríamos asociar correlaciones y causalidades para validar que estos efectos se cumplan. Conocer la capacidad de hospitales en términos de camillas, especialistas, respiradores, entre otros sería de mucha utilidad.También los hospitales y laboratorios que sí están realizando pruebas o tratamientos de COVID.

Creo que ya hay demasiados mapas sobre la evolución del COVID19. Hay que motivar a pensar en los siguientes pasos: Los efectos económicos y sociales.  Esperamos que estas 2 columnas de blogs apoyen a continuar la investigación en este sentido.

PRUEBA EL MAPA

Solicita con un escrito de motivos a direccion@datlas.mx , gracias por tu participación recuerda compartir la columna y dejar tu opinion.

Datlas_Promo_Podcast_Suscribe

Fuentes:

La Historia de las TIC en México – INVESTIGACIÓN DATLAS

Al día de hoy hablamos de analítica, transformación digital y madurez tecnológica, pero alguna vez te has preguntado ¿Cómo empezó? ¿De dónde vienen? ¿Cómo fue la evolución? En la columna de hoy daremos un espacio para explicar la historia de las tecnologías de información y comunicación (TIC) en México.

Datlas_Blog_Promo_SuscriberFree

I. Orígenes

Se puede dimensionar desde 1958 cuando llega el primer computador IBM 650 a la UNAM. Esto significó la llegada del primer computador a México y América Latina.

Datlas_historia1

En 1961 por el IPN se crea el centro nacional de computadoras donde juega un rol importante IBM-709

Datlas_historia2

En 1968 el IPN la primera microcomputadora llega a la ciudad con la PDP-8. También por INTELSAT México logro unirse al sistema satelital y transmitir mundialmente los XIX juegos olímpicos

En 1970 los datos del IX censo general de población y vivienda se procesan electrónicamente por primera vez en el INEGI. En 1972 se crea el consorcio TELEVISA y se crea el primer servicio de televisión vía satélite. En 1973 IBM introduce el disco duro.

En 1982 en México aparecen las primeras computadoras personales de IBM, la 53100 y la PC Junior. En 1984 Apple inaugura su primera fábrica en el país con la producción de Apple 11. En 1989 nace Iusacell y se convierte la primera compañía telefónica en México.

Datlas_Promo_Facebook_Suscribe

En 1995 Microsoft introduce el primer sistema operativo. El 2000 se da inicio el programa e- México que busca apoyarse en las TIC para reducir la brecha digital. En 2002 la red mexicana escolar ILCE tienen un total 7000 escuelas conectadas a internet.

II. Principales motivantes

  • Integrar tecnologías para eficiencias en censos
  • Acelerar los avances en la educación (UNAM e IPN)
  • Eventos deportivos (Olimpiadas 1968)
  • Vanguardia en lo corporativo
  • Globalización y conexión con el mundo exterior
  • Integración financiera a bolsas de valores

III. Obstáculos en desarrollo

Datlas_historia3

De acuerdo con datos de la Organización para la Cooperación y el Desarrollo Económico (OCDE) y de la Unión Internacional de Telecomunicaciones (UIT), en el 2015 en México apenas el 39.2% de los hogares contaban con una conexión a internet, para el 2016 el porcentaje se elevó́ a 47%, en el 2017 fue de 50.9 por ciento y el año pasado el porcentaje de hogares en el país con acceso a la red era del 52.9 por ciento.

Esto demuestra que, si no fuera por los teléfonos inteligentes, el porcentaje de personas en México con Internet sería mucho menor de lo registrado hoy en día.

Datlas_historia4

Si bien las TIC han alcanzado niveles importantes de adopción tanto en hogares como en usuarios, el crecimiento en el acceso a dichas tecnologías parece haberse estancado. Esto significa que a pesar de los avances que se han logrado, se necesitan nuevas políticas públicas y de inversión para garantizar un acceso universal.

Por ejemplo, aún existen 16.4 millones de hogares que no cuentan con acceso Internet, de los cuales el 49% de éstos se encuentran concentrados en los siguientes estados de la República:  Chiapas, Estado de México, Guanajuato, Jalisco, Oaxaca, Puebla y Veracruz.

Cabe resaltar que en 13 de los 32 estados se registró que más de la mitad de hogares están desconectados; sobresalen los casos de Chiapas, donde 75 de cada 100 hogares están desconectados, y en Oaxaca, donde 71 de cada 100 también carecen del servicio.

Datlas_Promo_Podcast_Suscribe

IV. Situación actual

De acuerdo con la Encuesta Nacional sobre Disponibilidad y Uso de Tecnologías de la Información en los Hogares (ENDUTIH), la cual cuenta con datos estadístico de Enero de 2015 a Diciembre de 2018, el incremento en el número de individuos con acceso a este servicio se ha elevado de manera gradual y constante.

Hace cuatro años, 62.4 millones de personas hacían uso del Internet, para el 2016, el número creció a 65.5 millones, en 2017 fue de 71.3 millones y para el 2018 se registraron 74.3 millones de usuarios en todo el territorio mexicano.

Datlas_historia5

De todos los usuarios, el 92.7 por ciento de ellos accede a través de su teléfono móvil, lo que equivale a 68.9 millones de personas de 6 años en adelante; le siguen las computadoras portátiles con el 32.6 por ciento (24.2 millones de personas); las computadoras de escritorio con el 32 por ciento (23.8 millones de personas); las tabletas con el 17.8 por ciento (13.2 millones de personas); televisores inteligentes con el 16.6 por ciento (12.3 millones de persones) y por último los que se conectan a través de una consola de videojuego con el 6.9 por ciento (5.1 millones de personas).

Datlas_historia6

V. Futuro

Datlas_historia7

Datlas_Promo_Youtube_Suscribe

Hasta aqui la columna de hoy ¿Qué otro dato conoces de la historia de las TICs? ¿Crees que han avanzado a buena velocidad?  Cuando queremos progresar es importante conocer de dónde venimos para plantear de manera objetiva hacia donde vamos.

Saludos y si quieres escuchar más charlas de tecnología te invitamos a suscribirte a nuestro podcast «Café de Datos».

https://open.spotify.com/show/5E5kraa2xVrYdq14WOiQet?si=WFtz1LBwQAqt7VIVgF4mCw

-Equipo Datlas-

Fuentes:

Dimensionando la industria de «Analítica de datos e Inteligencia Artificial» 2019-2020 – Investigación Datlas

¿Cuántas empresas de analítica de datos existen? ¿En qué industrias están participando? ¿Quién está desarrollando Inteligencia Artificial? Hoy hablaremos del mapa de mercado desarrollado por «Firstmark»  (@matttruck). Desde Datlas, startup mexicana de analytics, dedicamos esta columna a profundizando en el dimensionamiento y la clasificación de la industria completa de analítica de datos e inteligencia artificial.

Mapa completo de industria al 2019

2019_Matt_Turck_Big_Data_Landscape_Final_Datlas
Descarga aqui: https://cloudup.com/ck5aIRPKNuU

Según el reporte podemos encontrar 7 industrias y 82 sub-industrias para la industria de «datos» (Analítica, big data e inteligencia artificial).  Ahora haremos un pequeño enfoque a cada una.

1) Infraestructura

Abrir una empresa de analítica de datos y de tecnología hace 20 años tenía como 80% del presupuesto dedicado a infraestructura. Comprar potentes procesadores y sobre todo capacidad de almacenaje físico. Sin embargo, en los últimos 10 años ha ido en incremento los oferentes de poder de cómputo distribuido y almacenaje por nube.

1_Infrastructure_Panorama_Datlas

2) Analítica y Machine Learning(ML)

¿Tableau? ¿Power BI? ¿Watson? la mayoría de sus servicios corporativos pertenecen a la vertical de la subindustria de analítica y ML.  En estas plataformas es posible encontrar soluciones para convertir datos en algoritmos o visualizaciones y así mismo en ventajas comparativas para una empresa.

2_Analytics_ML_Panorama_Datlas

3) Aplicaciones con enfoque a empresa

Hay otro segmento de soluciones prediseñadas donde participan las tecnologías de analítica de nicho. Soluciones para gobierno, industria inmobiliaria o financiera son alguno de los ejemplos de empresas que han generado soluciones tan específicas como para atender un nicho. Estas startups buscan como estrategia ser tan importante en la industria que se acerque algun gigante como IBM, Microsoft o Palantir para adquirir su participación en la industria.

3_Aplicaciones_Empresa_Panorama_Datlas

4) Analítica de infraestructura cruzada

Son compañías que desarrollan diversas plataformas suficientemente robustas como para adaptarse a distintas industrias. En su mayoría podemos entender estos desarrollo como empresas que buscan generar ecosistemas más que productos o servicios.

4_Infraestructura_Cruzada_Analytics_Panorama_Datlas

**Si te interesa conocer más de analítica de datos y Big data te invitamos a solicitar GRATIS el DATA PLAYBOOK Vol. II de DATLAS. Solicítalo aqui. **

Datlas_Playbook_prelaunch

5) Open source – Fuentes abiertas

Hay otro segmento de compañías, organizaciones y desarrolladores independientes que son fieles creyentes del «open source». Esto hace referencia a los aplicativos que son gratuitos y mejorados por la comunidad que los utiliza. Aunque pareciera que no hay incentivos, casos de éxito como R, Hadoop o Linux , que son Open-source, son impulsores de cambios y mejoras en las industrias de manera significativa.

5_OpenSource_Panorama_Datlas

6) Fuentes de Datos y APIs

Los modelos de analítica y Big data requieren datos listos para ser consumidos. Es decir limpios, estructurados y actualizados. En este sentido hay una serie de empresas de fuentes de datos que se han encargado de desarrollar APIs o carreteras directas a fuentes de datos de valor.  Este es el caso, sobre todo, de aplicaciones móviles que recopilan datos de usuarios y como modelo de negocio comercializan esos datos.

6_RecursosdeDatos_Apis_Panorama_Datlas

Si quieres conocer más de este tema te puede interesar ¿Cómo funciona Location intelligence? el blog donde explicamos este tema a detalle

7) Más recursos de datos

Finalmente otros recursos de datos como las escuelas, incubadoras, centros de investigación o plataformas de retos de datos como Kaggle. Sin restarle importancia (Consideremos que Google ha adquirido un par de estas empresas), continua el incremento y las empresas que quieren ganar nombre desde verticales más tradicionales como consultoría, educación o desarrollo de patentes/algoritmos propietarios.

7_RecursosDatos_Panorama_Datlas

¿Qué opinas del tamaño de la industria? ¿Te imaginabas? Hasta aqui la columna de hoy si te gustó el contenido recuerda compartir y aprovecha nuestros descuentos en el MARKETPLACE DE DATLAS.

***BONUS 8 de Enero 2020*** CB Insights libera un reporte de Tendencias en Inteligencia Artificial donde estructuran las iniciativas de «Alphabet». Parece que ellos están entendiendo como ir capturando la industria desde distintas empresas.

Alphabet_CB_Insights_KEY_AI_Initiatives_Google

 

Equipo Datlas

-Keep it weird-