Archivo de la categoría: Manuales

Publicación de material didáctico para aprendizaje de la comunidad

1 mes usando la mac mini apple (2020) para data science y edición de multimedia – datlas

Comenzó el nuevo año y la demanda de procesamiento para una startup de analítica como Datlas incrementó. Es usual que en las conversaciones del área de tecnologías y analítica escuchemos: Máquinas virtuales, bases de datos en la nube, arquitectura de información, data warehouse, data lake, data marts, cron jobs, entre otros .Así como nombres de sistemas y herramientas: Power Bi, Tableau, Azure, IBM Watson, R, Python, Matlab, entre otros.

En este blog te compartimos nuestra evaluación y decisión sobre adquirir una de las nuevas MAC MINI con procesador m1. Por primera vez dejamos atrás INTEL y nos atrevimos a intentarlo. Te contaremos nuestro proceso de evaluación así como nuestra recomendación final.

Antecedentes ¿Qué buscábamos en un equipo?

Principalmente potencia, una máquina que pudiera ser utilidad de 5 a 7 años y además que nos familiarizará con un nuevo sistema operativo (Estábamos muy “casados” con Windows y Linux, pero Apple está haciendo cosas muy interesantes que hay que voltear a ver para no quedarnos obsoletos).

Dentro de las opciones y los motivos, entre computadoras potentes de windows no podíamos justificar el precio-beneficio. En todos los “benchmarks” terminaba apareciendo la Mac Mini m1 en una muy buena posición. En muchos planos, era la ganadora y parece que finalmente APPLE ofrecía algo al mercado que teníamos que voltear a ver.

Un punto importante es que la compañía de la manzana hizo un gran trabajo en la eficiencia de uso energético. Nosotros pensábamos dejar este equipo encendido al menos 5 días de la semana para correr algunos “jobs” automatizados y su ahorro energético la hacía buen opción.

Así como un procesador rápido, que vaya a la vanguardia con el mercado y nos permitiera mejorar nuestro trabajo de contenido para academy, podcast y blog

¿Mac sobre Windows para edición? OK … pero para ¿Data Science?

Considerando estos antecedentes, alguna de las opciones de MAC M1 (Laptop, desktops, etc) parecía ser una opción a evaluar para la startup. Aunado a esto, nuestro podcast con casi 60 capítulos ha sido trabajado hasta el día de hoy para edición de audio dede una MACBOOK PRO 2015 con algunas alteraciones como aumento de memoria SSD. Aún así era díficil continuar escalando la producción con un equipo como este.

Para la parte de las ediciones multimedia, el equipo (MAC MINI M1) se justificaba sólo, pero ¿Para Data Science? Aún y cuando buscamos e investigamos en videos de youtube, testimonios, preguntamos en foros, había muy poca documentación sobre como funcionaría para Data Science. Solamente nos podíamos entender con las guías de qué puntuaje tendría el procesador con casos de uso de “single-core” y “multi-core”. En Single core para procesos en batch parece que es bastante competitiva en contraste con su homologa que tiene el procesador de INTEL. Pero, en multi thread, hay ciertos escenarios específicos donde INTEL sigue siendo mejor.

¿Mac Mini M1 2021?

Es la computadora desktop de la clase MINI más nueva que ha sido lanzada con una variante de procesador: M1 sobre INTEL.

Las entradas de cables no son su fuerte, sin embargo encontramos thunderbolt, USB, conexiones a luz, cable ethernet y también entrada HDM1.

Importante decir que esta computadora, por la manera en que se desarrolló internamente, y parecida a modelos recientes de la mac, no puede ser “Updateada”. Es decir, no se le puede ampliar el RAM o alterar el procesador. Por eso mismo seleccionar una versión que sea útil durante el tiempo es importante.

Selección de la mejor versión de Mac Mini M1 2020

La MAC MINI m1 se puede adquirir en su versión básica (8gb de RAM y 256 SSD de memoria de disco) desde $650 dllrs . Las versiones más sofisticadas llegan a valer el doble.

Particularmente, en nuestro caso calculando el costo-beneficio, nos decidimos por la versión de 16 de RAM. Esto porque después de ver bastantes “reviews” hacían énfasis en que el RAM era algo que nos podíamos quedar cortos con 8. Además , particularmente, para tareas de análisis estamos acostumbrados a trabajar con 16 de RAM desde hace 5 años entonces ¿Para qué ir para atrás en este aspecto?

Por otro lado, la opción de memoria SSD no parecía razonable subirla. Esto porque llegar a 1TB subía más de $200 dllrs el valor final de compra. Pero preferimos irnos por lo básico: 256 GB y comprar por fuera una memoria HDD marca LA CLIE de 5 TB por menos de $150 dllrs.

Beneficios

Una configuración como la mencionada, es ideal para disminuir tiempos de renderizado en edición multimedia al menos un 70%. Episodios en calidad 4K que tardaban medio día en la MACBOOK PRO antigua, ahora toman menos de media hora.

Por otro lado, en procesos de analítica de datos. A pesar de unos problemas por no correr los programas de manera “nativa”, debo decir que los procesos se corren más rápido que mi equipo actual (Windows 10 Intel corte i7 8va generación con SSD).

Problemas

El m1 es potente con aplicaciones nativas, pero sí hay algunas diferencias cuando corremos programas que no pueden avanzar con la clase “Apple”. En esta situación el sistema operativo nos sugiere utilizar “ROSETTA” que es un adaptador para poder abrir programas que no tengan una versión nativa de M1.

Si abrimos el monitor de actividades podemos ver en la columna “CLASE” bajo qué esquema corre cada uno de los programas. Si es en APPLE significa que correrá con M1 , de lo contrario será usando ROSETTA.

Recomendaciones finales

Si en tu equipo de trabajo están buscando actualizarse en hardware, la mac mini m1 es una buena opción. Sin ser una computadora con “specs” galácticos o cuánticos, verdaderamente es una buena opción precio-beneficio. Es un equipo multi-usos que además de aprovechar sus capacidades avanzadas de edición te permitirá correr sin problema mucho de tus códigos que hoy corres en tu equipo INTEL

Principales drivers de compra:

  • Precio – beneficio
  • Versatilidad de uso
  • Tamaño y convenencias

Contras de compra

  • No se podrá actualizar su hardware durante el tiempo
  • No todos los programas corren nativos, habrá que usar ROSETTA durante un tiempo
  • La memoria SSD integrada puede duplicar el precio del equipo

Hasta aqui nuestra columna de hoy ¿Qué opiniones tienes de la evaluación? ¿Haz considerado usar un procesador M1? O si ya lo usaste ¿Cuál es tu experiencia? Continua la conversación con nosotros en redes sociales etiquetando a @DATLASMX

Saludos

Equipo Datlas

– Keep it weird –

Cómo hacer isocronas en qgis – manuales datlas

**Este blog está inspirado en el video de “Cómo crear un MAPA ISÓCRONO EN QGIS” de “Geomapchi. Fuente citada al final del blog”

¿Te has preguntado alguna vez en cuánto tiempo llegas a determinado lugar (Restaurante, plaza comercial, negocio, entre otros)? Bueno seguramente tus clientes también lo piensan. En analítica geo-espacial existe un tipo de evaluación que nos ayuda a identificar como atributo de distancia-tiempo si una ubicación es competitiva en relación a estar en “cercanía” a los mercados a los que quiere acceder

**Te puede interesar “El secreto para la ubicación de un negocio: Ubicación, ubicación y ubicación”

En esta columna explicaremos una de las muchas formas de operar isocronas usando el software libre QGIS.

¿Qué son los mapas de isocronas?

En planeación urbana, un mapa de isocronas permite tener lectura de la eficiencia de los diseños y direcciones de las calles en una urbe. Revisamos isocronas simulando traslados para peatones, bicicletas, autobuses, automóviles, entre otros vehículos. Esto con el fin parametrizar la eficiencia de cada una de estas rutas y generar una planeación de tráfico para el futuro de cualquier ciudad.

** Te puede interesar leer nuestro blog sobre: “Google y Apple liberan información de movilidad por COVID-19”

¿Cómo generarlo? (Ejemplo para Zócalo de CDMX Ciudad de México)

  1. Iniciamos descargando y abriendo el sistema de QGIS
  2. En la sección de “complementos” buscaremos “HQGIS”
  3. Descargamos el complemento

4. Una vez que descargamos el complemento el siguiente paso es solicitar credenciales . para esto en la pestaña de “Credenciales” daremos clic en “obtener credenciales”

5. Capturamos nuestros datos en los formularios (no tiene costo)

6. Confirmamos nuestro correo con el sitio

7. Ingresamos al sitio de “here”, el proveeodr, y damos clic en crear credenciales dentro de la sección de “REST”. Copiamos las credenciales

8. Esas credenciales las pegamos en la sección de credenciales, damos clic en guardar y luego en cargar

9. Dentro del complemento de “HQGIS” ahora damos click en la pestaña de “Isocrona” y capturamos los datos para generar la simulación. Lo primero es la dirección del epicentro del análisis (En este caso fue el Zócalo de Ciudad de México). Después capturamos la modalidad de traslado (Si es peatonal, auto, etc). Y será muy importante capturar los tiempos de evaluación (En segundos, en este caso el equivalente a 5, 10 y 15 minutos)

10. Tendremos al final el resultado de nuestro ejercicio. En este caso con 3 tonos distintos y podemos identificar hasta dónde nos llevaría 15 minutos desde o hacia el Zócalo de CDMX.

** Te puede interesar “El santo grial de la analítica: Location Analytics”

¿Software libre sobre software de licenciamiento?

Cierre de la columna

Hasta aqui la columna de hoy ¿Para qué tipo de acciones crees que será de utilidad obtener isocronas? ¿Crees que tu ciudad tiene buena planeación urbana? ¿Crees que es de utilidad evaluar con isocronas la ubicación de un negocio? Compártenos tus comentarios en nuestras redes via @DatlasMX

Equipo Datlas

– Keep it weird –

Fuente:

UN MES USANDO EL CENSO 2020 DEL INEGI y te compartimos algunas prácticas – manual datlas

EL CENSO 2020 de POBLACIÓN EN MÉXICO fue publicado hace un par de meses. Con ello información fresca sobre fenómenos demográficos, sociales y económicos pueden ser interpretados en el país. Desde su origen, los censos son apoyos para decisiones de gobierno, empresas y organizaciones sin fines de lucro que buscan influir el desarrollo del país con hechos y datos… no sólo con intuición.

En esta ocasión queremos traer al blog algunas de las menciones que el Presidente del INEGI, Dr. Julio A. Santaella, sobre la importancia y el valor de la información del censo. Si aún no escuchas ese episodio recuerda revisarlo en esta liga.

En esta columna compartiremos las instrucciones para encontrar esta información así como algunos ejemplos de cómo podemos visualizar eso datos.

**Te puede interesar “¿Cómo está México en Salud? Difundiendo datos de la ENSANUT del INEGI”

¿De qué trata el CENSO POBLACIONAL DEL 2020 DEL INEGI?

Es uno de los ejercicios de levantamiento de información primaria más importante del país. Sucede cada 10 años y, en términos prácticos, se toca puerta por puerta cada una de las viviendas del país para recoger, recopilar, evaluar y analizar datos sobre los mexicanos.

¿Qué información se levantó en el censo?

Características poblacionales, datos demográficos, habitacionales, sociales y todo en relación a los habitantes de un país.

¿Cuál es la última publicación?

La más actual es la del 2020. La información incluye datos a nivel nacional, Estatal y municipal. Algunas cifras suelen integrar resolución a nivel AGEB, MANZANA o coordenadas específicas

Algunos ejemplos que publica el instituto

**Te puede interesar “Analítica en Turismo con Datos del INEGI” y “¿Cómo usar datos el INEGI para diseñar estrategias de TURISMO?”

¿Qué información está preparada para su consumo?

En el área de búsqueda del CENSO dentro de la publicación del INEGI es posible encontrar los resultados generales a nivel agregado. La documentación de cada una de las variables. Los tabulados que contienen una presentación de indicadores preparados por el INEGI. Los microdatos si uno quiere llegar a detalles muy específicos de la publicación. Útil para científicos de datos, junto a los datos abiertos.

Otros ejemplos de datos geo-referenciados (DATLAS)

En estos ejemplos para Nuevo León

¿En dónde hay más población?

¿En dónde se concentran más negocios?

¿En dónde hay más católicos?

¿En dónde hay más mayores de 60 años? (Ideas para aplicaciones de vacunas de COVID-19 o similares)

También, te recomendamos echarle el ojo a este gran evento DATA DAYS donde mucho de nuestros aliados participarán con exposiciones de primer nivel. Anímate y revisa en: https://sg.com.mx/datadays/

Si te interesa conocer más no olvides suscribirte al demo gratuito de nuestras plataformas en www.datlas.mx

Hasta aquí la columna de hoy ¿Qué otros usos le puedes dar al censo? Compártenos tus ideas en @DatlasMX y recuerda escuchar nuestro episodio de Podcast donde el INEGI nos cuenta todos los detalles de este gran ejercicio de información

Equipo Datlas

– Keep it weird-

¿La temperatura está relacionada con los contagios de covid-19? (revisión de correlación para nuevo león, méxico? – ManuAles datlas

El mes de febrero fue una locura para algunas ciudades de México. Esto porque se cruzaron factores como heladas bajo cero, cortes de luz, cortes de electricidad, viviendas sin agua por tuberías sin funcionar y , claro está, la pandemia COVID-19 que ya casi cumple un año.

Nos preguntamos en Datlas si alguna de estas variantes habrá impactado para bien o para mal los contagios del COVID-19. Podemos imaginar que el frío hacer que las personas se aíslen un poco más y una helada impide a una gran población salir de sus casas. En ese sentido y usando los datos que podemos obtener de forma más oportuna analizamos la relación entre la temperatura y los contagios para el Estado de Nuevo León

I. Obtención de datos

Para la recolección de datos acudimos a fuentes secundarias en internet como el sitio Visual Crossing para el clima, el INEGI y Secretaría de Salud en México para los datos de COVID-19

Datos de clima

Datos de COVID-19

II. Alcance de datos

La recolección de los datos tuvo como alcance 3 meses. Para la temperatura se tomó como punto de referencia los promedios de las estaciones meteorológicas de Monterrey. Para los datos de COVID se tomaron en cuenta los municipios enlistados en la gráfica de contagios.

Temperatura en Nuevo León

(Hubo 2 días sin registros , cerca de los puntos extremos a la baja)

Contagios de COVID-19

(Nota sobre los valles en la gráfica que corresponden a fines de semana. El equipo de Datlas pidió opiniones a expertos que aplican pruebas y mencionaron que los fines de semana siempre hay baja porque menos personas se hacen pruebas)

III. Diagnóstico de información

Usando la librerya GGALLY en R se diagnóstico a alto nivel la relación entre variables como temperatura, máximos, mínimos, humedad, visibilidad y contagios confirmados por municipio para tener una lectura de cómo se relacionan las variables

IV. Análisis de Correlacion

Revisamos la correlación tomando en cuenta todos los períodos. En realidad los días de análisis fueron de 13 al 19 de febrero ya que la temperatura promedio fue de 4 C° aproximadamente. Así que también generamos un corte de análisis para un mes.

Correlación (Histórico de 3 meses)

Correlacion (Histórico de 1 mes (26 días))

Estos datos no mostraron relación entre alguna variable meteorológica , o la temperatura, y los contagios de COVID-19 en los municipios de estudios para ninguno de los 2 casos.

Te puede interesar leer también “Cómo el COVID-19 afecta la movilidad para los tapatíos”

Regresión ((Histórico de 1 mes (26 días))

Continuando con el proceso, aunque a sabiendas que existiría poca probabilidad de éxito, corrimos una regresión sin encontrar ninguna relación significativa (p_value)

Revisamos la correlación usando datos expresados en %

En un último ejercicio dejamos expresados los datos en la misma forma, en este caso porcentajes de variación, para evaluar si con esto encontramos alguna relación importante. En realidad no la hay. Es evidente que al menos para este espacio temporal los contagios de COVID-19 y la variación del promedio de temperatura no están relacionadas entre sí.

En estas iteraciones no encontramos ningún caso para indagar. Es decir la temperatura no parece estar relacionada con los contagios de covid-19 de la forma en la que se analizaron los datos en este ejercicio.

Pero para futuras investigaciones se recomienda a los analistas considerar variables rezagadas. Pensando que las personas reaccionan a la temperatura un día después de que se presenta una helada o un cambio drástico de temperatura.

Hasta aqui la columna de hoy. Recomendamos seguir en redes @DatlasMX para que nos cuenten con qué otra variable te gustaría que contrastaramos si el COVID-19 tiene una relación.

Comparte y suscríbete a nuestro podcast Café de Datos, que en Marzo cumple su primer año, y que esta semana lanzamos nuestra 3er temporada

Fuentes de datos:

MAPA DEL Crimen en méxico al 2020 – datlas manuales

En México y en LATAM cuando se trata de la agenda pública del 2021 hay que reconocer que la seguridad es uno de los temas que sigue pendiente por trabajar. Los niveles siguen incrementando año con año y el COVID-19 está dejando a muchas personas desempleadas, acelerando la movilidad entre regiones y generando una mayor crisis económica conforme los controles de aislamiento incrementan.

En esta columnas tomaremos de referencia la reciente publicación de @diegovalle, científico de datos que ha dedicado ya bastantes años a analizar datos de inseguridad y narcotráfico en México, para compartir un desarrollo sobre mapas de crímenes en la ciudad de México (CDMX o Mexico City).

¿Cómo funciona Hoyo de Crimen?

Es una ventanilla única hacia datos de seguridad para México. El sistema proyecta información de fuentes oficiales, las contraste y simplifica la navegación entre datos relevante mediante el uso de infografías, tableros y mapas. En esta ocasión, claro está, hablaremos del mapa. Si quieres conocer más te invitamos a revisar nuestro blog donde revisamos más datos de inseguridad .

Ejemplo de visualización sobre la CONDESA en CDMX

La herramienta integra información de:

– Homicidio doloso

– Robo de vehículos

– Robo a transeunte

– Robo en metro, microbus o taxi

– Robo a casa habitación

– Robo a repartidor o transportista

– Secuestro

– Violación

La información es proyecta en cuadrantes de acuerdo a la información documentada aqui.

¿Cuánto robo ha habido en la zona de la CONDESA?

Click para ver en grande

En la herramienta podemos contrastar año con tra año visualmente. También añadir filtros por horas para identificar qué horarios son los más seguros por cuadrante.

¿En qué cuadrantes se han incrementado los homicidios, violaciones y secuestro?

Click para ver en grande

Al menos en la región de análisis en la Condesa y alrededor de la misma se han reducido las ocurrencias de homicidios el 2020 en contraste al 2019

¿Cómo se registran los robos a repartidores? (De los que les veo más potencial para apoyar a RAPPI, UBEREATS, DIDI, ALSEA, entre otros)

Click para ver en grande

¿Tarifas dinámicas? Tradicionalmente varían con respecto a la distancia y el tiempo estimado de entrega, la cantidad demandada y la oferta. Imagínate que el riesgo de la zona sea un factor que calibre una tarifa apropiada para la exposición que tendrá un, por ejemplo, repartidor o chofer.

En el futuro, el monitoreo en ciudades inteligentes para delegaciones y municipalidades se parecerá mucho a sistemas como estos. Si quieres conocer más te invitamos a seguir a @diegovalle en sus redes y visitar https://hoyodecrimen.com/en/map para monitorear los incidentes en CDMX.

El potencial de la inteligencia de ubicación es enorme. Si quieres continuar aprendiendo te recomendamos leer el blog “Location intelligence, el santo grial de la analítica” y escuchar el podcast sobre datos de inseguridad que grabamos con la startup ALEPHRI.

Equipo Datlas

– Keep it weird-

¿Cómo calcular LAS HORAS DE LUZ SOLAR EN CUALQUIER PARTE DEL MUNDO? cASO APLICADO CON R – Manual datlas

El estudio de energías alternativas y luz solar han sido temas de prioridad durante los últimos 10 años en Latinoamérica. Se ha incrementado cada vez más la conciencia de lo contaminante que pueden ser las fuentes de energías fósiles. Y en ese sentido el estudio de luz solar y el interés por sus aplicaciones ha ido a la alza. En esta columna compartiremos un método en R para poder obtener información de luz solar en cualquier parte del mundo utilizando la paquetería suncalc.

¿Cómo empezar?

El ejercicio que haremos será en el lenguaje de R. Es una iniciativa de software libre muy utilizada para analítica y ciencia de datos. Una combinación recomendada es utilizar R junto con el IDE de R Studio para poder tener una plataforma de trabajo más cómoda y ordenada.

¿Qué paqueterías utilizar?

R es un lenguaje que tiene una base de funciones en CRAN, su base, que se pueden utilizar y en automático ya vienen precargados al momento que descargas R. En complemento, sistemas como R permiten la instalación de librerías externas desarrolladas por la comunidad que permiten ampliar las capacidades del mismo. Las librerías que vamos a utilizar para este ejercicio son:

library(suncalc)
library(tidyverse)
library(scales)

También te puede interesar “Análisis de discurso de AMLO con NLP en R”

¿Cómo identificar las zonas horarias?

Las zonas horarias serán importantes para el ejercicio. En la herramienta suncalc.org puedes identificar la zona horaria de cualquier ubicación del mundo. En el buscador, para este ejemplo, ubicamos San Pedro Garza García, en el Estado de Nuevo León en México.

Lo podemos declarar en nuestro código como lo siguiente:

names <- “San Pedro Garza Garcia (México)”
lat <-25.6510566
lon <- -100.4025978

¿Cómo generar la consulta para calcular la hora de amanecer y anochecer?

El código es la siguiente, hay que declarar primero las fechas que estamos considerando para la métrica , después estructurar la tabla reporte de respuesta que en este caso tiene el amanecer, el horario en que termina el amanecer, puesta del sol y la hora a la que comienza. También incluye la declaración de la latitud y la longitud, en este caso como variables que declaramos previamente. Y finalmente el “timezone” o la zona horaria que encontramos en el sitio web referenciado

df <-
getSunlightTimes(
date = seq.Date(as.Date(“2018-12-01”), as.Date(“2019-12-31”), by = 1),
keep = c(“sunrise”, “sunriseEnd”, “sunset”, “sunsetStart”),
lat = lat,
lon = lon,
tz = “America/Monterrey”

El reporte lo podemos consultar el reporte. Para esto podemos revisar las primeras filas con: head(df)

¿Cómo calcular las horas de luz en una ubicación determinada?

Para calcular las horas de luz, el código es más complejo, pero tiene que ver con una particularidad del sistema para manejar los horarios.

df %>%
mutate(
date = as.POSIXct(date),
day_length = as.numeric(sunset – sunrise)
) %>%
ggplot(aes(x = date, y = day_length)) +
geom_area(fill = “#FDE725FF”, alpha = .4) +
geom_line(color = “#525252”) +
scale_x_datetime(
expand = c(0, 0),
labels = date_format(“%b ‘%y”),
breaks = seq(as.POSIXct(min(df$date)), as.POSIXct(max(df$date)), “month”),
minor_breaks = NULL
) +
scale_y_continuous(
limits = c(0, 24),
breaks = seq(0, 24, 2),
expand = c(0, 0),
minor_breaks = NULL
) +
labs(x = “Date”, y = “Hours”, title = names) +
theme_bw()

Finalmente , podemos observar los resultados en un gráfico como los siguientes.

En contraste, si lo ponemos en comparación contra Oslo Noruega, digamos que San Pedro GG tiene mucho mayor luz solar que otros.

¿Qué podría suceder al futuro?

Futuros análisis de datos nos podrán apoyar a identificar, por ejemplo, la potencial captación de luz para un edificio. O, en el caso de negocios que tienen una dependencia con la luz solar, tener una mayor predictibilidad de sus oportunidades comerciales.

¿Qué otras aplicaciones piensas que pueden funcionar? Cuéntanos en @DatlasMX . Hasta aquí la columna de hoy, esperamos la puedas compartir con tus colegas y personas que les pueda interesar

Fuentes:

Aprendiendo de Ciencia de datos para líderes de equipo – manuales datlas

El mes pasado terminamos el curso de “Data Science for Managers”. Este curso tiene un alcance específico para gerentes que están liderando proyectos de analítica y transformación digital en organizaciones. En esta columna compartiremos 5 de los aprendizajes así como un podcast que grabamos alrededor de algunos conceptos de analítica y ciencia de datos que aprendimos.

Sobre los niveles de madurez en analítica para organizaciones

Cuando comienzas a hablar de ciencia de datos en organizaciones es muy importante darse un tiempo para la auto-evaluación. Entender cuál es el nivel de madurez de tu empresa o equipo te ayudará a seleccionar las estrategias adecuadas para ese nivel. En este caso el equipo que nos impartió las clases, Galvanize, nos recomendó este modelo de 5 niveles para medir el nivel de madurez de datos. Estos los identificamos y los discutimos en el podcast que te recomendamos escuchar.

Sobre los lenguajes de programación para ciencia de datos más usados en la industria

En la industria sigue existiendo una variedad cada vez más crecientes de lenguajes de programación con enfoque a paqueterías que habilitan la resolución de problemas de analítica de datos. En general, de software libre Python y R fueron los más mencionados. Por otro lado los que consideran uso de licencia, sería SAS, MATLAB o SPSS. La extracción de información con SQL también fue mencionada. Todos estos apuntes para posible agenda de desarrollo de científicos de datos.

Sobre el pensamiento sistémico en analítica con transformación digital

Lo que continuará pasando al futuro es una mayor integración de hardware especializado que genere y comparta datos. En un pensamiento de proyectos sistémicos no se trata de ciencia de datos o inteligencia artificial por su cuenta sino de un pensamiento sobre sistemas inteligentes.

Este tipo de pensamiento nos ayudará a pensar cuando se contrate un proveedor en una organización si la plataforma que ofrece ¿Se integra con sistemas IOT? ¿Estaría contemplado para complementar un sistema inteligente?

Sobre la priorización

Otro de los beneficios de este curso fue que se lleva con otros expertos de la industria que convoca el Monterrey Digital Hub. Cuando los facilitadores generaron la consulta de cómo se priorizan los datos en las compañías hoy en día estas fueron las respuestas.

La respuesta de 6 de cada 10 asistentes fue que la visión de los ejecutivos (directivos) es lo que dicta la prioridad. Otros miembros complementaron con alternativas de presupuesto, impacto a indicadores clave o asignación de recursos por parte de la organización. Conforme la industria y los proyectos de datos se califiquen con más rigor muy seguramente la prioridad se generará más orientado a KPIs u OKR .

Sobre cómo medir el valor de los proyectos

Otro de los puntos a capitalizar, de lo que esperamos se pueda incrementar la cultura en las organizaciones, es de cómo medir de manera continua el ROI (retorno sobre la inversión) de los proyectos de analítica.

En el curso nos explicaron algunos de los factores como considera talento, productos de datos y tecnología necesarios para calcular el ROI. Y de manera muy importante detectar a qué oportunidad de negocio estamos impactando: Nuevas oportunidades, optimizar o automatizar.

Hubo muchos aprendizajes más, pero quisimos destacar algunos aqui y otros más en nuestro episodio de podcast de analytics “Café de Datos” #Cafededatos.

Hasta aqui la columna de hoy si te gustó la columna te invitamos a recomendar así como SUSCRIBIRTE a nuestro PODCAST Café de datos

Saludos

Equipos Datlas

– Keep it weird-

Aprender ciencia de datos y big data – 3 apuntes para empezar YA – Datlas manuales

El año pasado en nuestro blog “¿Cómo aprender ciencia de datos?” compartíamos distintos puntos prácticos para empezar a rodearse de círculos y proyectos de analítica donde cualquier usuario interesado podría atender.

En un par de meses la diversidad de puntos de aprendizaje se ha incrementado. Desde podcast, como “Café de Datos”, hasta cursos en línea de todo tipo de nicho dentro de analítica. Pero el día de hoy en esta columna queremos compartir 3 recursos de utilizad que no te puedes perder si quieres aprender de ciencia de datos este 2020-2021.

Apunte 1) Sigue grupos relacionados a Data Science (ciencia de datos) en Facebook y Linkedin

*Data Science – R & Python

*Data Science

*Data Science Beginners (Para principiantes)

*Machine Learning and Data Science

*Data Science Central

En español:

*Data Science Monterrey

*Ciencia de datos con R

¿Donde aprender ciencia de datos o big data? Desde tu escritorio. Estos grupos en redes sociales en realidad son comunidades de aprendizaje. Personas como tú, que en algún momento quisieron incrementar su acervo en Data Science y han encontrado algunos atajos en su camino que quieren compartir.

Si decides entrar a estos grupos y eres aceptad@. Recuerda que lo importante es: Cumplir con las reglas de las comunidades, aportar conocimiento, preguntar y generar diálogo.

Apunte 2) Sigue cuentas de líderes de opinión en data science

* Asif Bhat – Data Analytics

*Randy Lao – ClaoudML.com

*Kyle MCkiou – Data Science Dream Job

* Favio Vázquez – Scientist

*Eric Weber – Yelp

*World Economic Forum

En español

* Ricardo Alanis – Head of Data Science, Nowports

* Aldo Valadez – Director de Analytics en Banregio

* David Puente – Director de analítica avanzada en ARCA CONTINENTAL

Apunte 3 – Busca contenido de calidad y Gratuito en tu idioma

*Podcast “Café de Datos”

* Data Playbook I – Estrategia de Datos para tu negocio

* Data Playbook II – Generando estrategias de Big Data en tu organización

* Data Playbook III – Ciencia de datos a la mexicana (Lanzamiento 15 de Septiembre del 2020 )

Y si conoces alguna otra fuente de valor compártela en @DatlasMX para que podamos darle compartir y mejorar este contenido para todos.

Hasta aqui la columna de hoy. Nos queda invitarte de manera enérgica a que descargues nuestro Data Playbook Vol. III

Descarga AHORA y aprende sobre ciencia de datos

Saludos y si eres mexican@ disfruta este grito en casa.

Equipo Datlas

-Keep it weird-

Referencias:

Lista de Shrashti Singhal: https://gist.github.com/ShrashtiSinghal

Liga de imagen: https://blog.followclass.com/2016/11/22/the-future-of-education/

ciencia de datos a la mexicana, próximo lanzamiento de playbook en 2020 – datlas MANUALES

La ciencia datos en el 2020 no debería ser “ciencia de cohetes” (rocket science) o no se le debería de ver como una caja negra. Está comprobado que “Lo que no se mide no se puede mejorar” y ahora, actualizando esta frase, “Lo que no se mide, no se analiza matemáticamente y no se socializa no se puede mejorar”. Absolutamente de esto se trata la ciencia de datos aplicada para convertir esos datos en historias (insights) y esas historias en accionables.

Uno de nuestros motivadores con Datlas ha sido desarrollar contenido para incrementar el entusiasmo y la aplicación por la ciencia de datos. Este año lo hemos hecho logrando más de 65 mil hits en nuestro blog, más de 4,000 escuchas en nuestra primera temporada del podcast “Café de Datos”, patrocinando el hackathon estudiantil más grande de México y dando más de 30 conferencias y webinars a empresas y estudiantes del ecosistema de transformación digital.

compartir experiencias e incrementar en conjunto el uso de plataformas de big data, analítica e inteligencia artificial.

**También te puede interesar nuestros Data Playbook Volumen I y II desde nuestro marketplace. Da click aqui para obtenerlo GRATIS.

Ahora te presentamos nuestro Data Playbook Volumen III”, nuestra tercera edición del compilado de nuestros aprendizajes como startup en crecimiento. En este contenido encontrarás definiciones de conceptos, metodologías y, lo más importante, aplicaciones de ciencia de datos. Contamos con lujo de detalle desde la construcción y desarrollo de modelos de respuesta inmediata, estrategias para el sector turismo, plataformas de inteligencia para “Dark Kitchens” hasta estrategias de analítica para aseguradoras. Finalmente sensibilizamos y ampliamos la conversación de nuestro podcast sobre privacidad e inteligencia de ubicación (“Location Intelligence”).

Solicita aqui para ser parte del lanzamiento este 15 de septiembre

En concreto compartiremos muchos de los métodos y aplicaciones prácticas que hemos desarrollado en el último año para negocios y gobiernos. Este tipo de lecturas le servirá a personas que están interesadas en aprender más de ciencia de datos asi como quienes ya están aplicando casos en organizaciones. Lo importante es conocer qué alcances existen, cómo prepararse y cómo acompañarse de startups o empresas aliadas que ayuden a las organizaciones a llegar ahí más rápido.

Hasta aqui la columna de hoy, estamos muy entusiasmados por este lanzamiento que llevamos en el equipo más de un mes preparando. Las y los invitamos a suscribirse en el bloque superior para recibirlo GRATIS.

Equipo Datlas

-Keep it weird-

5 ejercicios de ciencia de datos que todo e-commerce debería realizar – Datlas Manuales

En un e-commerce o tienda en línea cada click e interacción que se tiene con el sitio web es una oportunidad de almacenar datos para generar desarrollos que mejoren la experiencia del usuario. Y por ende, que puedan incrementar los ingresos o desarollar ahorros en la operación. Algunas preguntas que podrían salir al leer estadisticas en sistemas como google analytics serían:  ¿Por qué estarías cargando costos logísticos de un producto que ni si quiera se visualiza? ¿Si tu top 80% de ventas se concentra en 5 productos cómo te pudieras diversificar más? ó ¿Al usuario que adquiere zapatos cómo le recomiendo calcetines (productos similares?

**En la columna algunos términos están vinculados a otras columnas que hemos escrito que pueden apoyarte a incrementar tu conocimiento sobre el tema**

Datlas_Blog_Promo_SuscriberFree

Así como estos ejemplos, el E-commerce es uno de los sectores que más aplicaciones de ciencia de datos tiene por su abundancia de puntos de recolección de datos. En esta columna exploraremos algunas de las técnicas más utilizadas.

5 aplicaciones de ciencia de datos para e-commerce

1) Predicciones y pronósticos de venta en diferentes jerarquías de catálogo

Datlas_prediccion_gif

Los analistas y las personas en general somos buenos para pensar cómo podrían ser las cosas en el futuro, pero malos para puntualmente saber cuándo ocurrirá (¿Coronavirus o COVID-19? Imposible de predecir). Por otro lado la escuela de planeación de escenarios nos propone prepararnos para toda las posibles vetas que se abrirán al futuro dado nuestro contexto y las decisiones que tomamos.

Llevando esto al sentido del e-commerce, si buscamos una predicción de ventas para mejorar la toma de decisiones no solamente nos tenemos que basar en la venta de la última semana o mes. Podemos aprovechar todo el entorno digital, desde la lectura de tendencias que nos brinda plataformas como “google trends”, tendencias de facebook o platicas de twitter hasta la información interna del sitio como tiempo de estancia en sitio web, carritos sin pagar con ciertos artículos seleccionados, entre otros.

Es importante destacar, que la aplicación deberá aprovechar las bondades de ciencia de datos y capitalizar información a distintas jerarquías. Tradicionalmente en una oferta comercial se segmenta por: Categoría, subcategoría, segmento, subsegmento…. hasta llegar a producto. Esta estructura de datos nos permite aumentar la resolución al momento de generar análisis y predicciones. Entender si, por ejemplo ciertos “shorts o pantalones cortos” que vendemos en nuestra tienda están incrementando su venta porque toda la categoría de “ropa para verano” está creciendo o porque se trata de un comportamiento atípico.

2) Sistema de recomendaciones entre productos

El pase de diapositivas requiere JavaScript.

“Otros usuarios que compraron este producto también compraron…” ¿Te suena familiar? (También ocurre en netflix o en spotify cuando te recomiendan contenido de manera autónoma) Y es que en el mundo digital los sitios de e-commerce operan generan segmentos de manera dinámica. Esto significa que los comportamientos de compra entre grupos similares de de usuarios tienden a tener los mismos patrones.

En casos aplicados, almacenar los artículos que un usuario visualiza, qué tipo de correos electrónicos o campañas de marketing provocan clicks o usar sus cookies para aumentar la inteligencia en las recomendaciones son formas de pensar en algoritmos que nos puedan ayudar a generar un sistema de recomendación.

Es importante que en un inicio no queramos poner la vara tan alta si empezamos en cero.  Podemos comenzar trabajando en “batch”, es decir off-line, y cada 15 días actualizar el sistema de recomendación. A partir de los resultados podemos obtener mayor presupuesto y automatizar el flujo por completo.

Datlas_Promo_Facebook_Suscribe

3) Modelado de valor por vida (lifetime value) de usuarios

Datlas_LFTV

¿Cuál es la definición de “lifetime value”? Es una predicción del ingreso neto atributido a la relación futura con un cliente. En resumen, es el dinero que estimamos que un nuevo cliente nos pueda dejar a lo largo de la vida. Normalmente trabajamos este indicador de la mano del CAC (“Customer adquisition cost”). De esta manera una empresa como UBER o DIDI puede ofrecerte $150 MXN de viajes gratis porque sabe que hay una alta probabilidad de que en el primer año multipliquen por 10 el valor ($1,500 MXN de viajes en un año) una vez que descargues el app y sincronices tu tarjeta de crédito.

Fórmula:

(Valor de orden promedio) * (Número de ordenes repetidas) * (Tiempo que dura como cliente)

Este tipo de información puede ayudar para establecer objetivos de crecimiento de la página, optimizar estrategias de marketing, ajustar campañas y promocionales. Algunas empresas como Amazon o Rappi te proponen modelos como “prime” en donde te obsequian todas las entregas dado que eso representaría mayores incentivos para que seas su cliente durante más tiempo

4) Modelo de CHURN (identificar los clientes que puedes perder)

Datlas_Recomendacion_gif3

Así cómo podemos identificar de qué clientes podemos incrementar más la venta, también podemos identificar qué clientes son los que estamos a punto de perder. Un buen e-commerce administra métricas como: Número de clientes perdidos, % de clientes perdidos, valor de la pérdida de negocio recurrente, entre otros.

Si queremos trabajar en campañas de retención para disminuir el CHURN hay que primeramente identificar a los clientes. Normalmente lo hacemos por usuarios, pero también puede ser por su IP, atributos de pago (cuenta de paypal o últimos dígitos de una tdc o tdd) , horarios, comportamientos, entre otros.

Datlas_Promo_Podcast_Suscribe

5) Detección de fraudes

DatlaS_fraud

Finalmente, el fraude y los hackeos están a la vuelta de la esquina cuando se trata de negocios digitales. En E-commerce, el aprovechamiento y uso de tarjetas de crédito robadas para pagos por internet es uno de los casos de los que hay que prevenirse ¿Por qué? Por los contracargos. Esto es, en pocas palabras, una reclamación interpuesta por un tarjetahabiente ante el banco emisor por un cargo no reconocido a sus tarjetas. Como consecuencia el banco no le paga al comercio.

En una situación donde un ladrón de tarjetas roba datos, compra en mercadolibre, por ejemplo, el cliente afectado levanta un reclamo al banco, el banco no le paga a mercadolibre, pero mercadolibre ya había enviado la mercancia ¿Quién pierde? La respuesta es mercado libre porque esa mercancía que envío no va a ser pagada.

Existen en el mercado muchos motores antifraudes, tarjetas y listas negras, pero como e-commerce una empresa puede trabajar en su propia lista y mejor aún colocar un “puntuaje” a cada usuario que realice actividades sospechosas.

**Te puede interesar este blog donde escribimos las aplicaciones y casos de uso que podemos lograr si BANXICO o el gobierno libera listas de tarjetas que se reclaman por fraudes**

Datlas_Promo_Youtube_Suscribe

Hasta aqui la columna de hoy. Esperamos te haya servido y si estás considerando abrir un e-commerce o quieres conocer más sobre aplicaciones de analítica en estos canales de venta no dudes visitar nuestro marketplace y contactarnos para una llamada de brief.

Equipo Datlas

-Keep it weird-

 

Fuente de motivación:

https://towardsdatascience.com/5-data-science-project-every-e-commerce-company-should-do-8746c5ab4604