12 Preguntas de Analítica y Tecnología que puedes responder con Podcast – Ecosistemas Datlas

En un mundo con abundancia de información y con mucho interés en aprender ciencia de datos ¿Cómo priorizo? Bueno pues te hicimos la tarea. En este blog priorizamos y desarrollamos los blogs más relevantes para que termines este 2022 escuchando mucho de lo que tienes que aprender para estrategias de ciencia de datos y analítica.

Adicional, sabemos que muchas de las personas que nos siguen estarán interesad@s en temas de tecnología como innnovación y complementamos el listado con algunos de los mejores episodios de estos tópicos. No olvides suscribirte y evaluarnos en CAFE DE DATOS una vez que escuches cualquier episodio en la lista.

1) ¿Qué demonios son los analytics?

Click al episodio; Comencemos con lo básico, desde el equipo de DATLAS ponemos a tod@s en el mismo piso de entendimeinto

2) ¿Cómo estructurar equipos de Analytics?

Click al episodio ; Desde el equipo de DATLAS te contamos la experiencia y la investigación que realizamos para estructurar equipos de analítica avanzada

3) ¿Cómo iniciar y vender internamente en mi organización una estrategia de Analítica?

Click al episodio ; Tuvimos un episodio con DAVID PUENTE de ARCA CONTINENTAL quien nos habló de la venta interna de proyectos y estructura de soluciones para el equipo de ARCA

4) ¿Qué oportunidad de innovación tiene un corporativo al implementar analítica de datos?

Click al episodio; Estuvo con nosotros CARL WALLACE quien nos dió los contrastes de implementaciones de analytics en el mundo startups vs. mundo corportaivo

5) Analíticas a la Moneyball ¿Cómo aprovechar analítica en industrias de retail?

Click al episodio; Estuvo con nosotros Edwin Hernández Directivo de Farmacias del Ahorro quien con algunas analogías nos habló de casos de uso y aprovechamiento de datos en retail

6) ¿Cómo aprovechar datos públicos para investigaciones y exploraciones de análisis?

Click al episodio; Estuvo con nosotros el Dr. Santaella, ahora ex-presidente del INEGI quien nos compartió los avances del instituto que más datos públicos genera en México en materia de ciencia de datos y tecnología

7) ¿Cuáles son algunas tendencias importantes que líderes de equipo deben de tomar en cuenta en analytics?

Click al episodio; Recopilamos y sintetizamos desde el equipo directivo de Datlas las 5 tendencias de mayor impacto para el 2022 en analítica

8) ¿Qué casos de éxito existen de transformación digital impulsada por analítica en empresas?

Click al episodio; Tuvimos al Director de XPERTAL Rodrigo Rey quien con su experiencia en FEMSA y antres en NEORIS enriqueció nuestros puntos de vistas de digital

9) ¿Qué es la econometría espacial y cuáles son algunas aplicaciones con datos geo-referenciados?

Click al episodio; Nos visitó en el episodio el Dr. Miguel Flores especialista en econometría espacial de la UANL

10) ¿Cuál es el rol de un traductor de datos en el negocio y cómo funciona?

Click al episodio; Nos acompañó Néstor García de OXXO para hablarnos de los Data Champions

11) ¿Cómo impulsar la creativas y el interés social?

Click al episodio; LABNL participó con nosotros vía Idalia Santos para compartirnos su expertise de este tema

12) ¿Cuáles son los ejemplos más recientes de implementación de analítica en negocios transaccionales o de salud?

Click al episodio; Participó con nosotros Mail Laredo quien se introduce como responsable de parte del desarrollo para una de las Farmacias más grandes de México

Hasta aqui el episodio de hoy. Recuerda continuar aprendiendo activamente y si eres quien consume mejor contenido por lectura te invitamos a revisar nuestro último lanzamiento de DATA PLAYBOOK 2022 para aprender de las últimas experiencias del equipo ¿De qué otros temas te gustaría que habláramos en el podcast? Compártenos en @datlasmx.

Equipo Datlas

– Keep it weird – –

Así se vivió el lanzamiento del BARÓMETRO COMIR ft. DATLAS en el CNIR 2022 ( Congreso Nacional de la Industria de Reuniones) – Ecosistemas Datlas

Las cámaras de industrias, aunque son atípicas para la mayoría de startups, son principales impulsores de los negocios en las sociedades modernas. No es la excepción cuando hablamos de la «Industria de Reuniones» o MICE (Meetings, Incentives, Congress & Events). En pocas palabras todo lo que conlleva turismo vinculado a: Ferias, Convenciones, Exposiciones, Congresos, Seminarios y Viajes de Incentivos.

En México, la COMIR (Consejo Nacional de la Industria de Reuniones) es el consejo que reúne a las asociaciones más importantes de esta industria. Y la semana pasada, junto con Datlas, participamos en el marco del CNIR (Congreso Nacional de la Industria de Reuniones)

En esta columna te compartiremos todo lo que vivimos en este evento.

Sobre COMIR

COMIR es un consejo de consejos cuando de la industria de reuniones hablamos. Esto quiere decir que es una asociación que representa a gran parte de esa aportación del 1.2-1.5% del PIB en México que proviene de reuniones de ejecutivos, corporativos y organizaciones (MICE).

Esta industria es abundante de información, sin embargo llegar a ella puede ser costoso, confuso y necesitas cierto nivel de conocimiento para poder explotarla. Entre Datlas y COMIR hemos hecho mancuerna para poder sacar el mejor valor de los datos.

Imagen del Lanzamiento del Barómetro de la Industria de Reuniones.

Imagen del Primer Foro de Políticas Públicas de COMIR

Sobre CNIR

El CNIR es uno de los eventos más importantes que respalda COMIR. En este congreso de la industria de Reuniones fuimos convocados a compartir nuestro conocimiento sobre tableros y dashboards de análisis.

En este evento hubo más de 30 conferencias, programas educativos y más que nada un valioso networking en la industria en este resurgir tras la pandemia.

Sobre el Observatorio de la Industria de Reuniones

Desde hace tiempo, la OMT (Organización Mundial del Turismo) , propuso que las organizaciones con liderazgo y que aportan valor al Turismo deberán de comenzar a desarrollar observatorios turísticos.

Estos tienen como punto de partida monitorear y socializar la importancia del Turismo en distintas regiones del mundo. Así mismo brindar una trazabilidad oportunidad del momentum de la industria

Sobre el Barómetro de la Industria de Reuniones

El Barómetro de la industria de reuniones es una ventanilla única de información que integra una buena parte de los datos generados en la industria. Cuenta, en su versión 1.0, con 5 secciones:

  1. Economía de Reuniones
  2. Marco General de Reuniones
  3. Centros de Convenciones
  4. Monitoreo de Visitantes
  5. Relevancia del Destino
Fotografía en el evento de Lanzamiento con Gustavo Stauffer , líder de proyecto, y Pedro Vallejo de Datlas

Cierre

Hasta aqui la columna de hoy. En breve queríamos compartir esta experiencia que tuvimos sobre la versión 1.0 . De aqui en delante seguiremos desarrollando en conjunto a los líderes de industria esta iniciativa. Mantente al tanto en nuestras redes @DATLASMX

Equipo Datlas

– Keep it weird –

Los datos, proyectos de datos y su Flujo – Manuales DATLAS

Una tendencia en el mundo de la analítica es la diferenciación de los proyectos de tecnología, finanzas y de analítica. Para esto hay que entender la complejidad de los datos y cómo mantenerlos con buena calidad alrededor del tiempo.

En esta columna compartiremos los datos y su flujo, así como los tipos de proyectos de datos con su evaluación.

** Te puede interesar: Estándares de Calidad

Los datos y sus flujos

Cuando nos referimos a las etapas de los datos, podemos tomar en cuenta la información que «Harvard HBR» nos comparte sobre el ciclo de vida de los datos. Un ejemplo son los 8 siguientes:

0. Reto de Negocio: Cerrar tiendas que estén por debajo del punto de equilibrio

1. Generación: Base de datos de “VENTAS EN TIENDA”

2. Recolección: Recolectamos la información de los sistemas de información

3. Procesamiento: Limpiamos y homologamos al mismo huso horario

4. Almacenamiento: Asegurar que exista un respaldo de la base procesada en el ambiente de trabajo adecuado

5. Administración: Desarrollo capacidades de extracción (Ejemplo: SQL)

6. Análisis: Desarrollar sábanas de datos con indicadores normalizados (Productividad por hora, Productividad en tienda por formato, etc.)

7. Visualización: Priorizar mensajes y generar gráficos pertinentes

8. Interpretar: Socializar y traducir hallazgos en un set de recomendaciones de tiendas a cerrar

** También te puede interesar: Arquitectura de Proyectos de Datos

Proyecto de Datos

En organizaciones, es el uso de datos para habilitar decisiones efectivas que incluye alguno de estos entregables:

Descriptiva: ¿Cuál fue el desempeño durante la pandemia de las tiendas de aeropuerto? (El turismo se vio afectado negativamente, en consecuencia las visitas a aeropuertos y venta en tiendas)

Diagnóstico: ¿Cuál es el mes que más crecen las categorías de dulces? ¿Por qué? (En Febrero por día de San Valentin o en Octubre por día de los disfraces)

Predictivo: ¿Qué pasará el próximo año con al venta de agua en Monterrey?

Prescriptiva: Considerando la falta de agua en Monterrey se le sugiere a las categorías en los diferentes negocios que cambien sus planogramas para provocar crecimiento

Cognitiva: ¿Qué algoritmo me alertará cuando tengamos falta de inventario en alguna de los productos del top10% de rotación por tienda? (Y me pueda hacer un pedido en automático al proveedor)

** También te puede interesar: Algoritmos Supervisados y no Supervisados

Los 3 criterios para identificar proyectos a evaluar

Los criterios más importantes para evaluar un proyecto: Deseabilidad ¿Qué necesitan las personas? ; Factibilidad ¿ Qué es factible tecnológicamente? y Viabilidad ¿Qué es financieramente viable?

Con esto podemos identificar qué proyectos vale la pena evaluar y enviar a portafolio de proyectos

** También te puede interesa: Go-to-market strategy y Checklist para Proyectos de Analítica

Hasta aqui la columna de hoy. Desde ahora podrás elevar el nivel de conversación en tu equipo de análisis. No olvides repasar los criterios para buenos proyectos y dimensionar el tiempo que nos toma llevar a los datos por todos su ciclos.

Equipo Datlas

– Keep it weird-

LLEGAMOS AL EPISODIO 100 DE CAFÉ DE DATOS – ECOSISTEMAS DATLAS

Pocas iniciativas llegan a 100 ediciones de algo. Ya sea programas de televisión, libros, contenidos o inclusive este blog que ya acumula más de 350 columnas. Cuando hablamos de contenido y de ensamblar una comunicad sin duda la consistencia es lo que te hará llegar lejos. En esta columna compartiremos el fruto de haber construido hábitos de compartir lo que aprendemos desde nuestra startup DATLAS vía nuestro podcast de Café de Datos (En donde celebramos el episodio100) y el resto de proyectos dentro del umbral de la comunidad de DATLAS ACADEMY.

Sobre la iniciativa del podcast y Datlas Academy

Café de datos es una una iniciativa de podcast que inició por temas de pandemia durante febrero del 2020. Desde entonces hemos buscado integrar las mejores conversaciones, invitad@s y temáticas alrededor de analítica de datos + Transformación digital para aportar valor a la comunidad.

Este proyecto , que va más allá de un podcast, está dirigido a una audiencia que busca profesionalizarse en la analítica de datos y emprendedores que tienen interés en conocer más sobre estos temas

Milestones en Café de Datos

•Cerramos 5ta Temporada en Episodio 100

•Se generan nuevas alianzas para colaborar con las temporadas 7 (2022) y 8 (2023)

•Se comparten episodios en mas de 17 plataformas, siendo las principales: Spotify, Apple  y Google Podcast

•Más de 30 mil escuchas; Top40 en México y Top15 en las listas de tech para México

** Te puede interesar: Fin de Temporada con Invitado Estrella

Versión en Vídeo del Episodio 100 de Café de Datos

«La campaña se llamó -Te vas a morir- que para ser tiempos de pandemia fue algo agresiva» –

Arq. Adrián Machuca (Invitado del episodio 100 del Podcast Café de Datos)

Nos pusimos de manteles largos en este episodio, grabado desde las oficinas de Torre III Nuevo Sur con nuestros grandes colegas de U-Calli. Este café lo compartimos con el Arq. Adrián Machuca para platicar de su proyecto «El Legado» que lleva más de 2 años desarrollando En este episodio Adrián nos cuenta como idearon y ejecutaron la campaña de marketing «Te Vas a Morir» para invitar a los colaboradores del proyecto, nos contó también como fue llevarlo a cabo durante la pandemia y un poco de lo que se viene en un par de meses para esta presentación del libro en la ciudad de Monterrey.

** También te puede interesar: TOP Episodios de Podcast en Café de Datos

Te invitamos a suscribirte en nuestro programa en cualquiera de los reproductores que escuches. Nos compartas qué otros invitad@s te interesaría que convocáramos en las próximas temporadas. Escríbenos a @DatlasMX (en redes sociales).

Hasta aqui la columna de hoy y festeja con nosotros este gran acontecimiento

Equipo DATLAS

– Keep it weird –

DESDE GUADALAJARA,JALISCO – TALENT LAND 2022: EL REGRESO – COLUMNA DE OPINIÓN DATLAS

Esta semana (18 al 24 de Julio de 2022) tuvimos oportunidad de ser invitados a #TalentLand para compartir nuestro conocimiento en #DeveloperLand sobre Arquitectura de proyectos de #Dashboards. Tuvimos una grata experiencia y en este blog la buscamos compartir un poco de lo que vivimos

Sobre el evento TALENT LAND 2022

Se reúne anualmente (Interrumpido por PANDEMIA) una comunidad de talentos en educación, arte, emprendimiento y startups en la EXPO GUADALAJARA una vez al año para compartir conocimiento + conectar de manera profesional.

Dentro de DATLAS ya hemos tenido algunas experiencias en el paso. Desde que el evento era CAMPUS PARTY y con la transición a TALENT LAND lo hemos vivido al máximo

** Te puede interesar: CAMPUS PARTY 2017

Sobre la conferencia DATLAS

Fuimos contactados a inicios de año para participar de manera activa con una conferencia en el programa de developers (Desarrolladores o programadores) con una intervención sobre Dashboards

Preparamos con mucho esmero nuestra conferencia, ensayamos la exposición y fue muy satisfactoria la manera en que conectamos con audiencia. Algunos de los cuáles ya eran seguidores de nuestro podcast Café de Datos y nuestros blogs.

Algunas de las imágenes

** Te puede interesar: EXPERIENCIA EN TALENT NIGHTS

Les recomendamos a los lectores de este blog integrar a su agenda del próximo año este evento y sobre todo ya durante el evento poder participar de manera activa en conferencias y conectando con otros colegas ¿De qué otros temas te gustaría aprender? Cuéntanos en nuestras redes via @DATLASMX

** Te puede interesar: TALENT LAND 2018

Gracias a quienes asistieron, les apreciamos mucho

Equipo DATLAS

– Keep it weird-

En el 2022, para incrementar mi poder computacional: ¿Ensamblo una PC con INTEL o compro una SOC de APPLE M1 o M2? (Una Guía de ensamble para el 2022) – Manual y Columna de Opinión Datlas

Cuando vamos profesionalizando en cualquier tipo de empleo dentro del área #tech en algún momento requerimos más poder computacional. Tan sólo la nueva dinámica de trabajo implica tener alguna aplicación de videollamada abierta, slack, exploradores y los programas de producción que usamos. Así mismo en entretenimiento, música y/o videos de fondo. Todo esto genera una mayor demanda de capacidades a nuestro procesador y memoria.

En esta columna compartiremos distintas perspectivas sobre qué es más conveniente para alinear nuestra productividad con nuestro sistema de trabajo. Tomando como ejemplo el ensamble de una PC (Adquiriendo piezas por separado) y /o adquiriendo una solución que ya existe M1

** Te puede interesar: 1 mes usando la MAC MINI m1 para data science y edición multimedia

¿Cuál es la diferencia entre la PC y SOC?

Una PC hace referencia a una computadora personal. En particular, desde la parte de sus componentes, es modular. Funciona a través de un «cerebro» central que se le llama «motherboard». Este componente integra todas las extensiones en módulos intercambiables (Caja de poder, procesador, memoria RAM, memoria de almacenamiento, ventiladores, entre otros) para hacer que un sistema computacional funcione y se actualice por componente durante el tiempo

Por otro lado, una SOC, es un sistema compuesto de un solo chip. Eficiente debido a que suele ser integrado por la misma compañía que se asegura que la compatibilidad entre componentes y sus conexiones brinde el mejor servicio al sistema. NO es posible actualizar sus componentes. Un ejemplo muy famoso en el mercado son las computadoras de APPLE que corresponden a los chips M1, M2 o similares. O también los ensamble que ha hecho Google en los nuevos PIXEL con Tensorflow.

¿Cuánto cuesta cada uno?

En un modelo de ensamble para PC, considerando una computadora con un perfil para desarrollar proyectos de análisis de datos simplificados (one-thread) Un build podría contener lo siguiente:

Es preciso mencionar que en este diseño de $1,700 dólares no estámos considerando uno de los componentes más costosos que son las tarjetas gráficas. Con la que se podría modelar procesos más sofisticados en términos de ciencia de datos con el uso de GPUs.

** Te puede interesar el blog de la historia de TIC

En un modelo de SOC, de los que hoy compiten en el mercado encontramos algunos de los más famosos de referencia:

Puedes ver a detalle las capacidades de la m1 (la de la izquierda) en nuestro blog. Sin embargo, algunos «benchmark» de la industria publicados para simplificar la revisión.

Es justo mencionar que los «benchmarks» tienen muchas variantes. No es lo mismo analizar y evaluar el desempeño de un procesador para ciencia de datos o para diseño multimedia. Tampoco para videojuegos. Pero con algunos puntos a contrastar es el desempeño de single-thread vs. multi-thread.

Así mismo, mucho dependerá de otros componentes. Por ejemplo, del lado de la memoria RAM necesaria para editar un video si buscamos resolución 4K recomiendan 64 de RAM:

Como caso de ensamble les compartimos algunas imágenes de los proyectos que desde DATLAS estamos haciendo este 2022 en términos de hardware para mejorar algunos equipos de procesamiento

Hasta aquí la columna de hoy ¿Cuál es tu preferencia? INTEL, AMD o M1 cuando se trata de un procesador. Si el presupuesto no fuera restricción ¿Qué componentes usarías? Compártenos tus perspectivas en redes a través de @DatlasMX o dando click aqui.

Si te interesa aprender más de estos temas te recomendamos estos tutoriales

Equipo Datlas

– Keep it weird –

Fuentes:

Estándares de calidad para Datos (Data quality standards) – Investigación Datlas

Los sistemas de datos y analítica avanzada son cada vez más complejos. Nuevas herramientas, formatos, técnicas y métodos son implementados para descifrar hallazgos de una manera más automatizada acercándonos cada vez más a la verdadera analítica prescriptiva. Además, MIT estima que una mala calidad de datos puede representar entre el 15%-25% de costos sobre los ingresos de una compañía. (Fuente: https://sloanreview.mit.edu/article/seizing-opportunity-in-data-quality/) Pero, volviendo a los fundamentales, o como dicen en inglés «Back to basics» ¿Cómo podríamos monitorear que estos procesos funcionen con calidad? ¿Cómo asegurarme que todos los proyectos de analítica en mi organización tengan un mínimo nivel de calidad?

En esta columna revisaremos los principios de calidad de los datos y compartiremos algunas prácticas básicas que en el equipo Datlas hemos aprendido durante la trayectoria de varios proyectos. Esta columna te interesará si lideras o buscas liderar iniciativas de analítica en tu organización.

I) ¿Qué son los estándares de calidad?

Según el libro de «Managing Data Quality» la calidad de los datos se puede definir como: El efecto fundamental de la calidad de los datos es que los datos correctos estén disponibles en el momento correcto para los usuarios correctos, para tomar la decisión correcta y lograr el resultado correcto. Esto se puede ampliar considerando que los datos de buena calidad son seguros, legales y se procesan de manera justa, correcta y segura .

Cuando nos referimos a calidad de datos tenemos en cuenta el método, la organización y la habilitación de sistemas que nos permitan generar una base sostenible de calidad de datos durante el tiempo

II) ¿Cuáles son los términos más importantes en calidad de datos?

  • Proveedores de datos: Los creadores de fuentes de datos
  • Recipientes de datos: Recipientes dinámicos y estáticos de fuentes de información
  • Fuentes primarias: Referencias de primera mano de información, también conocidos como los datos que provienen de la fuente original
  • Fuentes secundarias: Referencias de segunda mano, que un intermediario integro, alteró, agrego o modificó para fines de desarrollo de métricas

** También te puede interesar: «Arquitectura de proyectos de datos» . Liga: https://blogdatlas.wordpress.com/2021/02/08/arquitectura-de-proyectos-de-datos-data-warehouses-vs-data-lake-vs-data-mart-datlas-manuales/

III) ¿Cuáles son las dimensiones de calidad de los datos?

  • Que los datos no estén incompletos, es decir que el nivel de cobertura sea cercano al 100%. Ejemplo si estamos hablando de una base de datos transaccional de una gran cadena comercial ¿ A la fecha del corte, cuánta información tenemos disponible?
  • Qué existe integridad entre la relación de los datos
  • Los datos disponibles son lo más actualizados posibles. Y son vigentes para los escenarios de análisis que requiere la organización
  • Cumplimiento de la estructura de datos, de acuerdo a los parámetros establecidos. Ejemplo que todos los campos temporales sean consistentes en todo el sistema. Si se registran a nivel minuto-segundo, que así sea. Si la semana comienza en domingo, que sea así para todos los sistemas
  • Disponibilidad de los datos cuando se requieren. Es decir, que la fuente permita tener información de manera oportuna
  • Que las herramientas disponibles para registrar datos sean las correctas. Buenos métodos y registros en las unidades que el sistema lo requiere. Recomendable que existan registros de identificadores únicos
  • Finalmente, pero no menos importante, que los datos sean consistentes entre sistemas . Es decir, que entre áreas y equipos tengan los mismos estándares de consultas para que , por ejemplo, todos tengan la misma venta

IV) 10 Consejos prácticos para mantener calidad de los datos

En materia práctica ¿Qué podemos utilizar? En nuestra investigación queremos citar y complementar los consejos de Talend.

1) Hay que volver a la calidad de los datos una prioridad

2) Establece buenas métricas de calidad de datos con base a las dimensiones establecidas

3) Profundiza en investigar las fallas en la calidad de los datos

4) Invierte en entrenamiento interno

5) Establece, implementa y monitorea buenas guías de gobernanza de datos

6) Genera procesos de auditoría buscando: Bases de datos incompletos, faltantes, datos erróneos, inconsistencias, datos viejos, entre otros

7) Asigna un administrador de calidad de datos en cada departamento

8) Declara y gestiona una fuente única de referencia de datos

9) Automatiza los flujos de datos de buena calidad

10) Impulsa el uso de la nube y la cultura de trabajo colaborativo con «plantillas y glosarios» de datos

V) Sobre el ISO relacionado a la calidad de los datos

Finalmente y, en cumplimiento a los estándares con la que muchas compañías trabajan, se puede poner en práctica lo que dice el compendio «Data quality — Part 61: Data quality management: Process reference model».

** También te puede interesar: Metodologías para preparar tus bases de datos. Liga: https://blogdatlas.wordpress.com/2020/07/09/4-pasos-para-preparar-tus-bases-de-datos-para-analisis/

Hasta aqui la columna de hoy . Y tu ¿Qué prácticas de calidad de datos tienes en tu día a día o con tu equipo? ¿Quién monitorea la calidad de información y que los hallazgos en sus análisis vengan de buenas fuentes?

Comparte tu conocimiento con la comunidad en redes con @datlasmx

Ahora puedes revivir gratuitamente el SIMPOSIUM DE DATLAS ACADEMY donde tuvimos a expertas y expertos de corporativos en México charlando de sus grandes proyectos

Equipo Datlas

– Keep it weird –

Fuentes:

¿Qué es y para qué sirve el análisis topológico de datos? – Columna de Investigación Datlas

La generación de información es algo que ha sobrepasado límites que hace no mucho tiempo eran impensables. Para 2020, la media de información almacenada mundial en internet ha sobrepasado los 35 zetabytes (1 zetabyte = 1 billón de terabytes), lo cual ha llevado tanto a la ciencia de datos como al Big Data a convertirse en herramientas clave para conseguir el éxito de organizaciones y empresas. Sin embargo, en ocasiones, es simplemente demasiada información con la cual lidiar, por lo que el proceso de análisis y de obtención de recomendaciones basadas en datos, se vuelve más lento y contraintuitivo.

Ante esta problemática, es de esperarse que nuevas técnicas y metodologías comiencen a ver la luz conforme la tecnología avanza y el poder computacional al que somos capaces de acceder aumenta también. Entre estas nuevas técnicas, hay una que se está volviendo cada vez más relevante por sus excelentes capacidades para lidiar con grandes nubes de datos y poder extraer información de utilidad de ellas; el Análisis Topológico de Datos (o TDA por sus siglas en inglés).

Para entenderla, primero tenemos que entender qué es la topología. La topología es una rama de las matemáticas relativamente joven (nació apenas en el siglo 17), y su objetivo es el estudio de las propiedades invariantes de las figuras en el espacio… Bien, lo anterior podría no tener mucho sentido a menos que se esté un tanto familiarizado con el argot matemático, por lo que ahora, para ponerlo en términos simples, usaremos el siguiente ejemplo:

Imagina por un momento una bola típica de plastilina en tus manos, todos estamos de acuerdo en que la plastilina es un material maleable, ¿verdad? Uno puede usar esa bola para hacer distintas figuras, por ejemplo, con suficiente dedicación, podemos moldear un cubo, una pirámide u otros poliedros. En matemáticas, al acto de moldear esas figuritas de plastilina, le llamamos transformación. Bueno, con esto en mente, podemos decir que una bola de plastilina es topológicamente equivalente a un cubo de la misma plastilina, puesto que podemos formar uno a partir del otro. Sin embargo, tenemos una sola regla: No se puede romper la plastilina ni se le pueden hacer hoyos. Entonces, las preguntas que se haría un topólogo sobre la plastilina son: ¿Qué es lo que hace que podamos formar un cubo a partir de una esfera? ¿o viceversa? ¿Qué aspectos de la figura siguen igual a pesar de aplicarle una transformación?

Para un topólogo, un circulo es lo mismo que una elipse, una esfera es lo mismo que un cubo, y se aplica un razonamiento similar para otras figuras. Incluso, existe un chiste un tanto popular entre matemáticos, que dice que un topólogo no puede distinguir entre una taza de café y una dona.

Ahora bien, volviendo al punto principal. ¿Qué tienen que ver las figuras de plastilina con el análisis de datos?

Si nosotros tomamos una figura y colocamos dos puntos cualesquiera sobre ella, esos puntos van a estar a cierta distancia uno del otro, ¿cierto? Por ejemplo, la distancia del trabajo a casa es un ejemplo de colocar dos puntos sobre una esfera (la tierra). Pero, ¿Qué pasa con esa distancia si la figura original se deforma siguiendo la única regla de la topología? Pues evidentemente, dependiendo de la transformación, esa distancia puede hacerse mas grande o más pequeña. Por ejemplo, si La Tierra fuera de plastilina, y la convirtiéramos en otra figura, entonces la distancia entre la casa y el trabajo evidentemente cambiaría, ¿verdad?

Bueno, el ejemplo anterior fue solamente utilizando dos puntos, la casa, y el trabajo. Pero ahora imagina una base de datos gigantesca, con millones de puntos, como las que empresas como Facebook o Google generan todos los días. ¿Esos puntos sobre qué figura están? La respuesta es muy simple, están sobre el plano cartesiano en algo que los matemáticos llamamos Rn (R a la n potencia)  . Es decir, en el espacio. Como recordaremos de la secundaría, el plano cartesiano es algo así para 2 y 3 dimensiones.

Entonces, aplicando lo que hemos aprendido, si yo tomara el plano cartesiano y lo deformo, ¿Qué les sucede a los puntos que están sobre él? Evidentemente la distancia entre ellos cambia y puntos que estarían lejos entre sí, ahora puede que estén más cerca, u otras cosas muy interesantes pueden pasar.

Además, recordemos que muchos métodos de clasificación utilizan la “distancia” como forma de afirmar si existe una similitud fuerte o no entre varias observaciones. Por lo tanto, si deformamos el plano de forma correcta, es posible que podamos encontrar patrones en los datos que de otra forma estarían ocultos para nosotros y para nuestros algoritmos. Entonces, estas nubes enormes de datos pueden ser subdivididas en clústeres más pequeños y cada uno de estos, ser unido con sus vecinos en relación con la distancia que exista entre ellos, formando así, lo que en topología conocemos como complejos simpliciales.

El TDA definitivamente es mucho más complicado matemáticamente hablando, sin embargo, es una herramienta muy poderosa que está siendo desarrollada para facilitar el trabajo con grandes cantidades de datos.

¿Quieres aprender acerca de esta y otras técnicas innovadoras de análisis de datos?

Equipo Datlas

– Keep it weird –

Referencias:

Carlsson, G.: Topology and Data., Bulletin of the American Mathematical Society no. 46 (2009) 255–308.

Eaton, C., Deroos, D., Deutsch, T., Lapis, G., Zikopoulos, P.: Understanding Big Data. Analytics for enterprise class Hadoop and Streaming Data, The McGraw Hill Companies, 2012

Kahle, M.: Random geometric complexes., Discrete and Computational Geometry 45 no. 3 (2011).

¿Qué es la Ciencia de Datos (Data Science)? Según Google – MANUALES DATLAS

Durante varios blogs Datlas y podcast de Café de Datos hemos hablado de casos de éxito/fracaso en ciencia de datos. La realidad es que el entendimiento durante el tiempo de este campo de la ciencia se ha ido diversificando. A menudo pensamos que forzosamente tiene que estar vinculado a determinada herramienta, qué tiene que ser desarrollado por ciertos perfiles y/o que sólo aplica si impacta de gran medida a la organización. Google Cloud en sus recursos de de aprendizaje comparten una guía de 6 pasos a seguir para la ejecución de proyectos de «Ciencia de Datos».

** También te puede interesar «Dimensionando la Industria de Inteligencia Artificial»

Como aviso previo, estos pasos están relacionados a procesos de análisis facilitados por un área de ciencia de datos. No tanto por un área de inteligencia de negocios. Para mayor claridad puedes conocer los distintos roles que hay en un equipo de ciencia de datos o algunas de las aristas para formar un buen equipo de datos.

I) Ingeniería de Datos

Es un momento clave en donde a la luz de un problema de negocios se extraen datos, se ingesta a un sistema de variables, se generan catálogos y a través de un procesamiento estos se vuelven información de valor. Con experiencia Datlas, agregamos una etapa de desarrollo de «Glosario de Datos» como parte de documentación y control de actualización de variables.

I.1 Ingestión de Datos y Descubrimiento

I.2 Preprocesamiento de datos

I.3 Almacenamiento de Datos

I.4 Glosario de Datos

II) Análisis de Datos

Desde análisis descriptivo hasta visualización de datos la parte de análisis integra distintos procesos estadísticos para generar hallazgos. Es altamente iterativo y caemos muchas veces en experimentación. Estas exploraciones apoyan a realizar las preguntas correcta sobre los datos que estamos evaluando. Resalta la sección, al final, de planificar la comunicación de los hallazgos.

II.1 Exploración de Datos

II.2 Pre-procesamiento

II.3 Insights de Datos

II.4 Comunicarlos

III) Desarrollo de Modelo

A través de los hallazgos de la etapa previa, se podrá seleccionar el mejor modelo de Machine Learning para detonar el aprovechamiento del histórico de datos así como la infraestructura usada para resolver problemas de análisis.

III.1 Simplificación de datos (Feature Engineering)

III.2 Entrenamiento de modelos

III.3 Evaluación de modelos

IV) Ingeniería de Machine Learning

Habilitar el servicio en línea para que otros usuarios puedan consumir los modelos. Asimismo monitorear que la estabilidad y los resultados del modelo hagan sentido durante su uso.

IV.1 Modelo de servicio

IV.2 Desarrollo de implementación de modelo

IV.3 Monitoreo de Modelo

V) Activación de descubrimientos

A través de entender los «journeys» de os usuarios de nuestros análisis y entender qué decisiones son ajustadas gracias a los análisis que desarrollamos seleccionaremos el mejor método de «delivery». Podemos hablar de dashboards, reportes u otro tipo de modelos vía API.

V.1 Seguimiento a influencia de decisiones

V.2 Identificar si el cliente final ha cambiado su comportamiento

V.3 Interconectar a otros servicios en la organización

VI) Orquestación y Mantenimiento

Mantenimiento con información actualizada del servicio. Usos replicables entre usuarios y experimentos.

VI.1 Escalamiento

VI.2 Carreteras únicas y APIs

** También te puede interesar «Metodologías para ciencia de datos»

Comentarios Datlas

Adicionalmente, a estos pasos que en su mayoría tienen base técnica. En seguimiento a los procesos de negocios y para que nuestros modelos de ciencia de datos tengan impacto en la organización para la que lo construímos es necesario diagnósticar y comunicar. En un inicio, entender bien el problema de negocio o la hipótesis que estamos validando. Así como, de manera iterativa, en cada paso del proceso identificar la audiencia a la que vale la pena comunicar. A veces sucede que estamos experimentando y queremos llegar a la dirección para influir su toma de decisiones. En realidad, hay que reconocer que a ciertos foros sólo les interesarán los resultados y a otros el método ¿Sabes cuál es cual en tu organización?

Suscríbete a Datlas Academy Gratuitamente.

Equipo Datlas

Keep it weird

Fuentes:

– Feature Engineering: https://www.kdnuggets.com/2018/12/feature-engineering-explained.html

– Data Science 6 steps with Google: https://youtu.be/EQvLUMjz-g4

¿ESCASEZ DE AGUA EN NL? POR DÓNDE COMENZAR A INVESTIGAR (UNA REVISIÓN CON MAPAS Y RESPONSABLES DE LA IP)… – COLUMNA DE INVESTIGACIÓN DATLAS

Los niveles del agua han estado muy bajos en Nuevo León por sequías prolongadas, previsiones de hace 3 ó 4 años que no se ejecutaron correctamente por gobiernos, consumos importantes de empresas y , seamos honestos, un descuido en algunos casos por parte de los ciudadanos. Tan pronto terminó el caos por el COVID-19 ahora toca la situación del agua y en esta columna queremos aportar nuestro granito a la investigación de la situación de escasez del agua.

En esta columna instruiremos de cómo consultar mapas satelitales para identificar impactos en las presas de Nuevo León así como tocaremos base con fuentes secundarias que han encontrado alternativas ágiles para confrontar a esta problemática.

Escucha nuestro podcast sobre este tema:

Situación Actual

La demanda de tambos y ROTOPLAS a la alza y preocupación generalizada por la baja presión del agua. Las alternativas de almacenaje de agua son reducidas, además a un menor flujo de agua, se ha detectado un líquido más impuro ¿La ocasión? Principalmente la escasez de agua provocada por niveles de lluvia menores a la media. Adicional , según MILENIO con datos de Agua y Drenaje Monterrey, el consumo de agua en hogares incrementó un 30%.

En consecuencia, los niveles de las presas están muy bajo. Llama la atención porque, aún y cuando más del 50% del agua que llega a los regiomontanos viene de arroyos, ríos y ___ . Las presas son el reflejo de

En algunos momentos las autoridades regionales han recomendado almacenar agua previo a los cortes.

¿Cómo monitorear una presa?

Podríamos comenzar utilizando la plataforma de GOOGLE TIMELAPSE. Esta es gratuita y está en línea.

Después de encontrar zonas de enfoque, por ejemplo, la presa de la Boca en Nuevo León. Podemos usar plataformas como LANDVIEWER para consultar imágenes satelitales de distintas fechas.

Paso 1 – Se registran coordenadas y se dimensiona el cuadrante de dónde se quieren obtener imágenes satelitales

Paso 2 – Se carga el raster y se puede ir modificando por fechas

Paso 3 – Se puede usar la herramienta de contraste para evaluar el antes y el después

Resultados de Pasos a seguir

Febrero 2022 Vs. Diciembre 2022

¿Qué cuidados inmediatos pueden acordarse? (IP y Ciudadanos)

Buscar el 80/20 ; esa concentración de pocos usuarios que consumen niveles altos de agua. Si nos enfocamos en esto, tendríamos que voltear a las empresas de Nuevo León. De acuerdo @tonyo_hernandez Entre las 14 empresas con más altos volúmenes se encuentran las siguientes:

Para los ciudadanos, la receta es cortes programados.

¿Cuál es el siguiente paso? Mayores controles si es que en los meses que siguen no llegan lluvias. Pero por otro lado, hay suficiente información para plantear mejores escenarios de negociación con otras empresas. También así solicitar apoyos a la federación y seguir concretando charlas como con gobiernos de Veracruz para trasladar más agua. Platícanos tu opinión en @datlasmx y dinos ¿Cómo deberíamos de seguir cuidante el agua?

Fuentes: