¿QUÉ ES UN GEOHASH Y PARA QUE SIRVE? – INVESTIGACIÓN DATLAS

La utilidad de un mapa es inmensa, estos tienen un sinfín de posibilidades.

En Datlas usamos mapas todos los días con el propósito de brindarles soluciones a nuestros clientes. En algunos casos estos mapas son hechos a la medida, mediante el servicio de personalización de plataformas que ofrecemos, estos mapas albergan la inteligencia comercial que puede hacer la diferencia en este mundo de competitividad económica.

¿Pero que tienen de especial estos mapas?

La respuesta depende de cuáles son tus necesidades, ¿Tu compañía busca expanderse mediante el modelo de franquicias?, ¿Buscan segmentar los puntos de venta? o ¿Qué tal un análisis RFM?

El punto es que el mapa que desarrollamos para ti y el que desarrollamos para otro cliente es muy diferente porque las necesidades son distintas, lo que nos lleva a que los datos georreferenciados de los mapas son distintos.

Al trabajar con un universo tan grande de información, nos topamos con datos que están georreferenciados de multiples maneras.

¿Qué es la georreferenciación?

Es una técnica de posicionamiento espacial donde ubicamos en el mapa un objeto[1].

Si nos queremos poner técnicos, la georreferenciación es el posicionamiento espacial de una entidad en una localización geográfica única y bien definida mediante el uso de un sistema de coordenadas y datum específicos.

Al final, todo esto se traduce a poner un punto en el mapa.

Tipos de georreferenciación

Ya sabemos que el mapa es la representación geográfica de un lugar y las coordenadas son la dirección para llegar a cualquiera de estos lugares.

Puntos

Un punto es un objeto de cero dimensiones ubicado en el mapa mediante las coordenadas latitud y longitud.

Estos puntos son de gran utilidad para ubicar negocios en un mapa, o los puntos de venta o incluso puntos que se mueven en el tiempo, como un auto o camión.

** Te invitamos a leer la siguiente columna: AIRBNB En la zona metropolitana de Monterrey – DATLAS COLUMNA DE INVESTIGACIÓN para ver un uso practico del analisis de puntos.

Líneas

El siguiente nivel son las líneas, podemos pensar en las líneas como un conjunto de puntos. Estas son de gran utilidad para mapear objetos como curvas de nivel para topografía, las calles de una ciudad, líneas de metro, limites municipales o de colonias, etc.

Polígonos

Por último tenemos el polígono, estos son un conjunto de líneas utilizadas para representar la superficie, son figuras geométricas irregulares que pueden ajustarse al perímetro o frontera geográfica del elemento que representan.

Multiples fuentes

Ya vimos que los datos pueden ser georreferenciados de diferentes maneras, pero también es importante considerar que cuando creamos un mapa le agregamos información de múltiples fuentes.

Estas fuentes pueden ser del orden público, como datos del INEGI u otras fuentes gubernamentales o pueden ser privados como datos propios de tu empresa.

Al agrupar datos de distintas características y de distintas fuentes se crea un reto. ¿Qué pasa cuando queremos calcular una metrica para una ubicación, cuando esta ubicación tiene datos en agregado de un municipio y de un AGEB?

Estos datos están a diferente “tamaño” uno siendo el municipio que en una zona urbana puede ser mucho más extenso que un AGEB.

** Si te interesa saber mas sobre los AGEBs y de la utilidad que proporcionan, te invitamos a leer la columna: ¿QUÉ ES UN AGEB Y PARA QUE SIRVE? – INVESTIGACIÓN DATLAS

Existen muchas técnicas para analizar los datos en estas situaciones, una de ellas es mediante el uso de geohashes.

¿Qué es un Geohash?

Un geohash es un sistema de geocódigos del dominio público creado por Gustavo Niemeyer[2] en el 2008 en donde se codifica la ubicación geográfica en un texto corto de letras y números.

¿Como se utiliza este sistema?

El mundo se divide en 32 células mediante el uso de una cuadricula, estas están diferenciadas con una letra o un número. En el caso de México, podemos ver que casi todo el país se encuentra ubicado en el geohash “9”, a excepción de Yucatán y Quintana Roo que residen en el geohash “d”.

A este nivel de resolución la utilidad de este sistema de geocodigos es limitada, pero la utilidad de este sistema incrementa al hacerle “zoom” al mapa.

El beneficio de este sistema es que se puede hacer zoom al mapa o aumentar la resolución, al hacer esto podemos ver que se van agregando dígitos al código.

Este mecanismo de aumento de resolución se puede hacer hasta tener un código de 12 dígitos lo cual representaría un cuadro geográfico de tan solo 3.7cm por 1.9cm, sin duda un espacio muy pequeño.

Para un uso más práctico, encontremos el geohash donde se encuentra el Ángel de la Independencia en la Ciudad de México a 8 y 9 niveles.

En 8 niveles podemos observar la siguiente cuadricula, donde se encuentra el Ángel de la independencia, y en el geohash azul al centro de la imagen de 9 niveles, que tan solo mide 4.80 metros por 4.80 metros.

¿Qué tamaño tienen los Geohashes?

Como definimos antes, al crecer el nivel de caracteres que tiene el código del geohash, disminuye el tamaño que representa ese espacio.

El tamaño de cada uno de los 12 niveles que encontramos en este geocódigo es el siguiente:

¿Qué beneficios tiene usar este sistema?

Existen múltiples beneficios de poner en práctica el uso de geohashes en tu organización, el primero es que dado que podemos generar códigos de un tamaño tan pequeño, es difícil que aun que nuestra base de datos de ubicaciones sea extensa, se repita la ubicación del algunos de los geohashes, esto significa que podemos utilizarlos para identificar a cada uno de nuestras ubicaciones, esto se conoce como geotagging.

Otro beneficio es el del bajo costo computacional al utilizar este sistema para hacer consultas a un geo-servidor.

Cuando hacemos consultas a un geo-servidor podemos tener una situación donde sea muy grande la carga computacional, imagínate que le pedimos al servidor que nos de todos los puntos que estén en nuestra base de datos en un área de 1km de radio de una ubicación, la consulta va a ser muy grande dado que se tienen que calcular distancias entre la ubicación y los puntos de la base de datos. Si por otro lado tenemos todos nuestros puntos geohashados podemos hacer una consulta más siempre, algo así como: Tráeme todos los puntos que estén en este geohash. ¿Quieres hace más grande el área de consulta? Entonces tráeme todos los puntos que empiecen con algunos dígitos en su geohash.

Otros dos beneficios de usar este sistema son, primero la curva de aprendizaje amigable, al leer esta coluna ya tienes los básicos para empezar a usarlo. Y por último el costo, dado que nuestro amigo Gustavo Niemeyer [@] creo este sistema y lo coloco en el dominio público es gratis.

¿Como pongo en práctica el geohashing?

Para hacer uso de este sistema primero necesitamos coordenadas, te invito a abrir una hoja en Excel y hacer las siguientes columnas, id, nombre, latitud, longitud y geohash.

Coloca el nombre de tres ubicaciones que gustes y busca sus coordenadas en Google Maps[3].

El siguiente paso es buscar el geohash de estas tres ubicaciones, para eso podemos poner en práctica nuestras habilidades de código mediante el uso de bibliotecas como “Geohash 1.0” para el lenguaje de programación Python[4].

Pero en este caso haremos uso de unas páginas de internet muy utiles, la primera: https://geohash.tools/ donde podemos colocar nuestro primer set de coordenadas.

Esta herramienta nos da como resultado el geohash a 6 niveles de nuestras coordenadas. Un poco amplio el espacio, intentemos ahora con otra herramienta, la página: https://www.movable-type.co.uk/scripts/geohash.html y coloquemos las coordenadas de nuestra segunda ubicación, en este caso solicitemos el nivel a 7 caracteres.

Y por último repitamos el ejercicio en la misma página solicitando la tercera ubicación a un nivel de 8 caracteres.

Al concluir los tres ejercicios, tu tabla debe de estar completa.

Nota como la longitud de tu geohash fue subiendo de caracteres, pero al mismo tiempo el espacio representado por cada código fue disminuyendo.

Hasta aqui la columna de hoy ¿Qué otras aplicaciones has escuchado con Geohashes? Únete a la conversación en @DatlasMX y aprende más de geohashes en Datlas Academy.

Equipo Datlas

– Keep it weird-


Referencias bibiliograficas:

[1] https://es.wikipedia.org/wiki/Georreferenciaci%C3%B3n

[2] https://web.archive.org/web/20080305223755/http://blog.labix.org/#post-85

[3] https://www.google.com/maps

[4] https://pypi.org/project/Geohash/

Estándares de calidad para Datos (Data quality standards) – Investigación Datlas

Los sistemas de datos y analítica avanzada son cada vez más complejos. Nuevas herramientas, formatos, técnicas y métodos son implementados para descifrar hallazgos de una manera más automatizada acercándonos cada vez más a la verdadera analítica prescriptiva. Además, MIT estima que una mala calidad de datos puede representar entre el 15%-25% de costos sobre los ingresos de una compañía. (Fuente: https://sloanreview.mit.edu/article/seizing-opportunity-in-data-quality/) Pero, volviendo a los fundamentales, o como dicen en inglés «Back to basics» ¿Cómo podríamos monitorear que estos procesos funcionen con calidad? ¿Cómo asegurarme que todos los proyectos de analítica en mi organización tengan un mínimo nivel de calidad?

En esta columna revisaremos los principios de calidad de los datos y compartiremos algunas prácticas básicas que en el equipo Datlas hemos aprendido durante la trayectoria de varios proyectos. Esta columna te interesará si lideras o buscas liderar iniciativas de analítica en tu organización.

I) ¿Qué son los estándares de calidad?

Según el libro de «Managing Data Quality» la calidad de los datos se puede definir como: El efecto fundamental de la calidad de los datos es que los datos correctos estén disponibles en el momento correcto para los usuarios correctos, para tomar la decisión correcta y lograr el resultado correcto. Esto se puede ampliar considerando que los datos de buena calidad son seguros, legales y se procesan de manera justa, correcta y segura .

Cuando nos referimos a calidad de datos tenemos en cuenta el método, la organización y la habilitación de sistemas que nos permitan generar una base sostenible de calidad de datos durante el tiempo

II) ¿Cuáles son los términos más importantes en calidad de datos?

  • Proveedores de datos: Los creadores de fuentes de datos
  • Recipientes de datos: Recipientes dinámicos y estáticos de fuentes de información
  • Fuentes primarias: Referencias de primera mano de información, también conocidos como los datos que provienen de la fuente original
  • Fuentes secundarias: Referencias de segunda mano, que un intermediario integro, alteró, agrego o modificó para fines de desarrollo de métricas

** También te puede interesar: «Arquitectura de proyectos de datos» . Liga: https://blogdatlas.wordpress.com/2021/02/08/arquitectura-de-proyectos-de-datos-data-warehouses-vs-data-lake-vs-data-mart-datlas-manuales/

III) ¿Cuáles son las dimensiones de calidad de los datos?

  • Que los datos no estén incompletos, es decir que el nivel de cobertura sea cercano al 100%. Ejemplo si estamos hablando de una base de datos transaccional de una gran cadena comercial ¿ A la fecha del corte, cuánta información tenemos disponible?
  • Qué existe integridad entre la relación de los datos
  • Los datos disponibles son lo más actualizados posibles. Y son vigentes para los escenarios de análisis que requiere la organización
  • Cumplimiento de la estructura de datos, de acuerdo a los parámetros establecidos. Ejemplo que todos los campos temporales sean consistentes en todo el sistema. Si se registran a nivel minuto-segundo, que así sea. Si la semana comienza en domingo, que sea así para todos los sistemas
  • Disponibilidad de los datos cuando se requieren. Es decir, que la fuente permita tener información de manera oportuna
  • Que las herramientas disponibles para registrar datos sean las correctas. Buenos métodos y registros en las unidades que el sistema lo requiere. Recomendable que existan registros de identificadores únicos
  • Finalmente, pero no menos importante, que los datos sean consistentes entre sistemas . Es decir, que entre áreas y equipos tengan los mismos estándares de consultas para que , por ejemplo, todos tengan la misma venta

IV) 10 Consejos prácticos para mantener calidad de los datos

En materia práctica ¿Qué podemos utilizar? En nuestra investigación queremos citar y complementar los consejos de Talend.

1) Hay que volver a la calidad de los datos una prioridad

2) Establece buenas métricas de calidad de datos con base a las dimensiones establecidas

3) Profundiza en investigar las fallas en la calidad de los datos

4) Invierte en entrenamiento interno

5) Establece, implementa y monitorea buenas guías de gobernanza de datos

6) Genera procesos de auditoría buscando: Bases de datos incompletos, faltantes, datos erróneos, inconsistencias, datos viejos, entre otros

7) Asigna un administrador de calidad de datos en cada departamento

8) Declara y gestiona una fuente única de referencia de datos

9) Automatiza los flujos de datos de buena calidad

10) Impulsa el uso de la nube y la cultura de trabajo colaborativo con «plantillas y glosarios» de datos

V) Sobre el ISO relacionado a la calidad de los datos

Finalmente y, en cumplimiento a los estándares con la que muchas compañías trabajan, se puede poner en práctica lo que dice el compendio «Data quality — Part 61: Data quality management: Process reference model».

** También te puede interesar: Metodologías para preparar tus bases de datos. Liga: https://blogdatlas.wordpress.com/2020/07/09/4-pasos-para-preparar-tus-bases-de-datos-para-analisis/

Hasta aqui la columna de hoy . Y tu ¿Qué prácticas de calidad de datos tienes en tu día a día o con tu equipo? ¿Quién monitorea la calidad de información y que los hallazgos en sus análisis vengan de buenas fuentes?

Comparte tu conocimiento con la comunidad en redes con @datlasmx

Ahora puedes revivir gratuitamente el SIMPOSIUM DE DATLAS ACADEMY donde tuvimos a expertas y expertos de corporativos en México charlando de sus grandes proyectos

Equipo Datlas

– Keep it weird –

Fuentes:

Análisis de Detección de Incendios y Vegetación : Caso de Uso Sierra de Santiago, Nuevo León, México – Manuales Datlas

Ante el incendio que se registro hace algunas semanas en la Sierra de Santiago en Nuevo León nos hemos dado a la tarea a desarrollar un ejercicio con una herramienta la cual permite identificar ciertos análisis de capas tales como índices de detección de incendio, vegetación, penetración atmosférica entre otros esto por medio de capturas vía satélite.

Durante este blog te presentaremos esta herramienta llamada LandViewer que nos ha ayudado a realizar este ejercicio, así como también un caso de uso el cual nos va a permitir sensibilizar la dimensión de lo qué es un incendio forestal y el cómo más de 2,000 hectáreas afectadas repercuten en la calidad de aire de una ciudad.

LandViewer – Herramienta de Análisis Satelital

Esta herramienta es una aplicación online la cuál nos permite navegar en cualquier parte del mundo y visualizar imágenes satelitales con capas como agricultura, vegetación, cobertura forestal, detección de incendios y muchas más.

Esta herramienta es creada por EOS Data Analytics y reúne imágenes por parte de los satélites Landsat-7, Landsat-8, Sentinel-2 y Modis para hacer posible cualquier tipo de análisis por medio de un interfaz en su página web.

Te puede interesar este estudio de escasez de agua en presas para Nuevo León, México:

Caso de Uso – Sierra de Santiago Nuevo León, México

¿Qué sabemos de este incendio?

El pasado 14 de marzo inicio un incendio en la Sierra de Santiago a las afueras de la Ciudad de Monterrey a causas de la poca conciencia de quemas de basura en la comunidades rurales, este incendio logro contenerse al 90% el 3 de abril afectando más de 2,000 hectáreas de vegetación.

De esta manera el interés de poder hacer un análisis por capturas satelitales surgió de un tweet por parte del Astronauta Thomas H. Marshburn el cual mostro imágenes de la Sierra Madre Oriental específicamente en la Ciudad de Monterrey.

Eso sucedió un 11 de febrero, un mes después aproximadamente se desató el incendio en la Sierra de Santiago y en Datlas nos hicimos la pregunta ¿Y por que no realizar un análisis satelital de lo sucedido en Santiago por medio de LandViewer?

Te puede interesar también ¿Cómo hacer isocronas en QGIS?

¿Qué nos permite identificar LandViewer a partir del incendio?

De primera identificamos a la Ciudad de Monterrey Nuevo León y en la parte de abajo podemos percatarnos del Municipio de Santiago, del lado derecho LandViewer nos permite activar una considerable cantidad de análisis en cuestión de vegetación, drenaje, índices de incendios y otros más.

Captura Satelital al 30 de marzo de 2022

Hallazgos LandViewer

Por medio de la capa «Penetración Atmosférica» podemos identificar la Sierra de Santiago de color azul e identificando una parte del incendio en varias marcas color rojo.

«El Índice de Diferencia Normalizada de la Vegetación o NDVI (Normalized Differential Vegetation Index) es a menudo usado para monitorear las sequías, para monitorear y predecir la producción agrícola, para ayudar a la predicción de zonas susceptibles de incendios y para los mapas de desertización.»

Así de esta manera citamos lo que LandViewer es posible identificar en la siguiente capa y es que encontramos una oportunidad de visualizar las zonas susceptibilidad de incendios en la Sierra como tal.

En la capa de nubosidad podemos visualizar la parte de abajo del mapa que la Sierra se encuentra en un tono más rojizo esto afecta tanto a su alrededor como a la Ciudad de Monterrey como tal.

Conclusión

La concientización de lo que estamos haciendo con nuestra Ciudad y el cómo podemos identificar estas áreas de oportunidad de zonas de riesgo de incendio, a partir de conocer el dimensionamiento de la vegetación en zonas rurales son oportunidades que nos dan esta y más herramientas de análisis de datos.

Afortunadamente la Sierra de Santiago estos últimos días se ha contenido y ha arrojado aire limpio, del que nuestra ciudad respira, siendo los cerros pulmones de la Ciudad que debemos cuidar con medidas de precaución y concientización.

Análisis 9 abril 2022 «Fuego Activo» vs 24 abril 2022 «Contención de Incendio». Observa la nubosidad de la ciudad con respecto a la captura más reciente con aire más limpio después de la contención.

¿Quieres aprender acerca de esta y otras herramientas de análisis de datos?

Equipo Datlas

– Keep it weird –

¿Conviene actualmente abrir una juguetería? – Caso de uso DATLAS (Especial día del niño)

La era digital ha revolucionado muchas cosas cotidianas, desde aparatos de comunicación, dispositivos de entretenimiento, el dinero, hasta medios de transporte. Sin duda vivimos en una era donde casi todo es digital y lo que no es aún, se está ideando cómo convertirlo digital, sin embargo hay cosas que no se pueden hacer 100% digitales como lo son los juguetes para niños. Muchas personas podrían pensar que las jugueterías están destinadas a extinguirse porque actualmente los niños prefieren aparatos de entretenimiento digitales. Esto puede que tenga algo de cierto si se ve a grandes rasgos y generalizando pero si nos vamos a específicos nos daremos cuenta que con el uso de los datos inteligentes una juguetería podría seguir sobreviviendo en este mundo digital.

Este blog tiene como propósito explicar cómo se utiliza la analítica y la Big Data para encontrar el mejor lugar para abrir una juguetería nueva en este caso. Nos pondremos en el papel del dueño de esta juguetería con el propósito de llegar a la máxima cantidad de familias posibles para maximizar nuestras ventas.

Utilizaremos un mapa de inteligencia propiedad de Datlas para realizar este caso. Te puede interesar este blog

Primeramente necesitaríamos las bases de datos necesarias para poder mapear, en este caso utilizaremos las siguientes:

  • Nivel Socioeconómico
  • Censo 2020
  • DENUE
  • Códigos postales
  • Categoría Social

Todas estas bases de datos estarán mapeadas delimitadas por AGEB. Si gustas conocer más de esto te puede interesar este blog

Una vez que tenemos nuestras bases de datos mapeadas empezaremos a utilizar nuestras herramientas de análisis para poder tomar la mejor decisión. Iremos paso a paso.

Paso 1: Ubicar a las familias potenciales

Utilizando los datos del CENSO podemos observar dónde son los AGEBs que tienen más personas infantes que son los «clientes» potenciales para una guardería.

Paso 2: Revisar el Nivel Socioeconómico

Con la capa de Nivel Socioeconómico podemos revisar los AGEBs con mayor o menor nivel y dependiendo de ello podemos saber el rango de precios o a qué sector de la población estaría dirigida nuestra guardería.

Paso 3: Observar la Categoría Social

Al momento de tener mapeada la categoría social de cada AGEB nos muestra que tipo de dicha categoría abunda en él, en este caso nos enfocaremos en la categoría de «Familia con Niños» que es de color verde en el mapa.

Paso 4: Activamos la capa de Códigos Postales

En este caso activamos la capa de Códigos Postales en conjunto con la capa de Categoría Social, esto con el fin de analizar cuáles son estos código postales donde existe una gran cantidad de familias con «clientes potenciales».

Paso 5: Sacamos conclusiones

Una vez observado las capaz, de hacer nuestros análisis, podemos llegar a algunas conclusiones importantes. Para fines prácticos se presentará la conclusión de cuáles son los mejores códigos postales para ubicar una juguetería actualmente.

Top 5 CP para ubicar una juguetería:

  • 67257
  • 64103
  • 66612
  • 66647
  • 64984

Se escogieron las zonas donde más abundan los «clientes potenciales» y también los CP donde existe una fácil vía de acceso para llegar a una juguetería.

A grandes rasgos así es como una juguetería podría utilizar el Big Data mediante las herramientas de DATLAS para potencializar sus ventas y seguir existiendo en este mundo cada vez más digitalizado, es un reto difícil pero no imposible. Teniendo a los datos y a la analítica de tu lado siempre irás por el camino correcto.

Equipo Datlas

– Keep it weird –

¿Qué es y para qué sirve el análisis topológico de datos? – Columna de Investigación Datlas

La generación de información es algo que ha sobrepasado límites que hace no mucho tiempo eran impensables. Para 2020, la media de información almacenada mundial en internet ha sobrepasado los 35 zetabytes (1 zetabyte = 1 billón de terabytes), lo cual ha llevado tanto a la ciencia de datos como al Big Data a convertirse en herramientas clave para conseguir el éxito de organizaciones y empresas. Sin embargo, en ocasiones, es simplemente demasiada información con la cual lidiar, por lo que el proceso de análisis y de obtención de recomendaciones basadas en datos, se vuelve más lento y contraintuitivo.

Ante esta problemática, es de esperarse que nuevas técnicas y metodologías comiencen a ver la luz conforme la tecnología avanza y el poder computacional al que somos capaces de acceder aumenta también. Entre estas nuevas técnicas, hay una que se está volviendo cada vez más relevante por sus excelentes capacidades para lidiar con grandes nubes de datos y poder extraer información de utilidad de ellas; el Análisis Topológico de Datos (o TDA por sus siglas en inglés).

Para entenderla, primero tenemos que entender qué es la topología. La topología es una rama de las matemáticas relativamente joven (nació apenas en el siglo 17), y su objetivo es el estudio de las propiedades invariantes de las figuras en el espacio… Bien, lo anterior podría no tener mucho sentido a menos que se esté un tanto familiarizado con el argot matemático, por lo que ahora, para ponerlo en términos simples, usaremos el siguiente ejemplo:

Imagina por un momento una bola típica de plastilina en tus manos, todos estamos de acuerdo en que la plastilina es un material maleable, ¿verdad? Uno puede usar esa bola para hacer distintas figuras, por ejemplo, con suficiente dedicación, podemos moldear un cubo, una pirámide u otros poliedros. En matemáticas, al acto de moldear esas figuritas de plastilina, le llamamos transformación. Bueno, con esto en mente, podemos decir que una bola de plastilina es topológicamente equivalente a un cubo de la misma plastilina, puesto que podemos formar uno a partir del otro. Sin embargo, tenemos una sola regla: No se puede romper la plastilina ni se le pueden hacer hoyos. Entonces, las preguntas que se haría un topólogo sobre la plastilina son: ¿Qué es lo que hace que podamos formar un cubo a partir de una esfera? ¿o viceversa? ¿Qué aspectos de la figura siguen igual a pesar de aplicarle una transformación?

Para un topólogo, un circulo es lo mismo que una elipse, una esfera es lo mismo que un cubo, y se aplica un razonamiento similar para otras figuras. Incluso, existe un chiste un tanto popular entre matemáticos, que dice que un topólogo no puede distinguir entre una taza de café y una dona.

Ahora bien, volviendo al punto principal. ¿Qué tienen que ver las figuras de plastilina con el análisis de datos?

Si nosotros tomamos una figura y colocamos dos puntos cualesquiera sobre ella, esos puntos van a estar a cierta distancia uno del otro, ¿cierto? Por ejemplo, la distancia del trabajo a casa es un ejemplo de colocar dos puntos sobre una esfera (la tierra). Pero, ¿Qué pasa con esa distancia si la figura original se deforma siguiendo la única regla de la topología? Pues evidentemente, dependiendo de la transformación, esa distancia puede hacerse mas grande o más pequeña. Por ejemplo, si La Tierra fuera de plastilina, y la convirtiéramos en otra figura, entonces la distancia entre la casa y el trabajo evidentemente cambiaría, ¿verdad?

Bueno, el ejemplo anterior fue solamente utilizando dos puntos, la casa, y el trabajo. Pero ahora imagina una base de datos gigantesca, con millones de puntos, como las que empresas como Facebook o Google generan todos los días. ¿Esos puntos sobre qué figura están? La respuesta es muy simple, están sobre el plano cartesiano en algo que los matemáticos llamamos Rn (R a la n potencia)  . Es decir, en el espacio. Como recordaremos de la secundaría, el plano cartesiano es algo así para 2 y 3 dimensiones.

Entonces, aplicando lo que hemos aprendido, si yo tomara el plano cartesiano y lo deformo, ¿Qué les sucede a los puntos que están sobre él? Evidentemente la distancia entre ellos cambia y puntos que estarían lejos entre sí, ahora puede que estén más cerca, u otras cosas muy interesantes pueden pasar.

Además, recordemos que muchos métodos de clasificación utilizan la “distancia” como forma de afirmar si existe una similitud fuerte o no entre varias observaciones. Por lo tanto, si deformamos el plano de forma correcta, es posible que podamos encontrar patrones en los datos que de otra forma estarían ocultos para nosotros y para nuestros algoritmos. Entonces, estas nubes enormes de datos pueden ser subdivididas en clústeres más pequeños y cada uno de estos, ser unido con sus vecinos en relación con la distancia que exista entre ellos, formando así, lo que en topología conocemos como complejos simpliciales.

El TDA definitivamente es mucho más complicado matemáticamente hablando, sin embargo, es una herramienta muy poderosa que está siendo desarrollada para facilitar el trabajo con grandes cantidades de datos.

¿Quieres aprender acerca de esta y otras técnicas innovadoras de análisis de datos?

Equipo Datlas

– Keep it weird –

Referencias:

Carlsson, G.: Topology and Data., Bulletin of the American Mathematical Society no. 46 (2009) 255–308.

Eaton, C., Deroos, D., Deutsch, T., Lapis, G., Zikopoulos, P.: Understanding Big Data. Analytics for enterprise class Hadoop and Streaming Data, The McGraw Hill Companies, 2012

Kahle, M.: Random geometric complexes., Discrete and Computational Geometry 45 no. 3 (2011).

San Valentin Geográfico para Nuevo León ¿Dónde hay más Casad@s y Solter@s? – Columna de Investigación DATLAS

Es día de San Valentin. Una festividad que, al menos en México , se celebra cada 14 de Febrero y nos hace recordar el amor en las parejas. Y aunque no solamente se tiene/debe expresar un día el año, es importante traer a la mesa su significado. Los Institutos estadísticos de los países, por reglas oficiales, cuantifican la cantidad de Población soltera, casada, separada y/ viuda en sus censos. En este blog tomaremos esas y otras estadísticas para compartir algunos hallazgos para el Estado Norteño de Nuevo León, México

Nuevo León es un Estado donde se cuantifican poco más de 5M de habitantes en sus zonas urbanas.  Particularmente en este Estado, en contraste con México en general, habitan más hombres que mujeres.

En cuanto a las estadísticas básicas, y cuando hablamos de personas de 12 y más años de edad, nos encontramos con que la mayoría de sus habitantes están Casados. Después la categoría de solteros y finalmente Separados y/o Viudos.

En términos comparables, y para el resto del ejercicio, usamos una base de 1000 habitantes para generar los siguientes indicadores:

556 personas por cada mil están casadas. 334 por cada mil están solteras y 110 por cada mil están viúdas o separadas

A Niveles Totales

Generamos una tabla de datos para 3 condiciones: Solteras, Casados y/o Separados-Viudos. En esta imagen el ordenamiento es por casados.

Top Municipios por Casados

Municipios a las afueras de la zona metropolitana es donde se excede por 100 personas, aproximadamente, el nivel a nivel Estatal de Población Casada.

Top Municipios por Solteras

Podemos «rankear» los municipios por orden de personas solteras. San Pedro y San Nicolás son las zonas con más solteros mayores de 12 años, según datos del CENSO INEGI 2020

Top Municipios por Separados y/o Viudos

Finalmente, de Separados y Viudos, algunas zonas también a las afueras de la ciudad

A nivel Suburbio (AGEB)

Top Suburbios por Población Casada

Top Suburbios por Población Soltera

Top Suburbios por Población Separada y/o Viuda

Para el cierre, revisamos la fuente «Exploding Topics» registramos que «autoamor» o «self-love» es de lo más revisado

Hasta aqui la columna de hoy . ¿Qué te parecieron las imágenes de nuestros mapas? ¿Ya ubicaste dónde dar serenata? Cuéntanos cómo la pasarás este día en nuestras redes @DatlasMX y si encuentras algún otro dato interesante

Equipo Datlas

– Keep it weird-

Descubre nuestra experiencia desarrollando Dashboards con Microsoft Power BI- COLUMNA DE OPINIÓN DATLAS

Esta experiencia comienza a partir de una gran iniciativa la cual es el aprendizaje, desarrollo y aplicación en tableros de inteligencia llamados «Dashboards», en Datlas nos hemos dado la tarea de innovar siempre procesos.

Es por ello que por medio de este blog te estaremos compartiendo uno de los programas que nos llevará a nuevas fronteras y oportunidades en proyectos dónde el Big Data se resume en tableros de inteligencia con cierto dinamismo para navegar, analizar y tomar decisiones con datos duros.

***Te puede interesar: «Arquitectura de Proyectos de Datos»

Inicios

El equipo Datlas esta viviendo uno de los pasos más importantes para el dominio y desarrollo de Dashboards, uno de las plataformas las cuales dimos vida a estos tableros para las organizaciones fue *Google Data Studio* sitio web en la nube de Google la cual podemos desarrollar aprovechar la información

Cómo automatizar los reportes de ranking de palabras clave, con STAT y Google  Data Studio | MD Blog

Caso de Uso en Data Studio

En Datlas trabajamos con una de las verticales las cuales son una oportunidad inmensa para el análisis de datos, anteriormente presentamos un blog en especial de este desarrollo de dashboard de intelgencia para el monitoreo turístico en Nuevo León llamado «DASHA» este formato fue realizado por la plataforma en línea Google Data Studio.

La experiencia de trabajar con Data Studio fue un motor importante para Datlas para el desarrollo y aplicación de proyectos de dashboard, el aprendizaje y la aplicación fue constante para poder enlazar más de 80 tableros activos que tuvieron la oportunidad de sincronizarse por medio del data warehouse.

A continuación te mostramos algunas visualizaciones que se hicieron posibles por medio de Google Data Studio:

Animated GIF
La imagen tiene un atributo ALT vacío; su nombre de archivo es datlas_blog_promo_suscriberfree.png

Nuevas fronteras rumbo al Business Intelligence

Parte de la innovación y sus procesos es implementar nuevas estrategias que nos sepan adaptar al cambio para transformar información este proceso es el business intelligence el cual nos lleva nuevas fornteras, nuevos objetivos y nuevas herramientas tecnológicas.

Nuestra experiencia para el desarrollo de dashboards comenzo en Google Data Studio este año estamos posicionando nuestros próximos proyectos en una herramienta de análisis empresarial dentro de la nube de Microsoft One Drive esta herramienta es Power BI.

** Te puede interesar: «Dashboards para principantes»

Esta visualización nos muestra los programas dedicados a realizar Dashboards ¿cómo ves la competencia?
Fuente: https://davoy.tech/power-bi-vs-tableau-vs-google-data-studio-in-2021/

Microsoft Power BI

Esta herramienta tiene como propósito analizar una gran cantidad de información dentro de la suite de Microsoft en la nube, la cual permite integrar diferentes fuentes desde un libro de excel hasta tablas dentro de una página web para poder ser visualizadas en tableros e informes que pueden ser publicados.

Power BI es uno de los programas con más cantidad de cursos de aprendizaje sobre la web, ojo aquí científicos de datos pues es una oportunidad para sumar a la metodologías aplicadas para el business intelligence como lo comentabamos anteriormente.

El equipo Datlas recomienda el siguiente curso impartido por Udemy de Power BI para el análisis de datos:

https://www.udemy.com/share/1031Mi3@XRuqenkYYBXMqQ9PvVmjKGjRNq2cn1GE92KRMLqYygWIqLZZNi2dYb6dAYmZrnC8Nw==/

No hay ninguna descripción de la foto disponible.

Esqueleto Microsoft Power BI

De acuerdo al aprendizaje que Datlas se dio a la tarea de conocer y aplicar, estos fueron los puntos a tratar durante la experiencia cuando tomamos el curso:

  • Descarga del producto y conociendo Power BI Desktop: Este apartado en términos generales se vio un reconocimiento que necesitamos entender antes de usar el programa
  • Limpieza, modelado y transformación de información: En esta secciión se vieron los distintos ejercicios para la limpieza de información
  • Visualizaciones, tableros y filtros: Conocimos la variedad de análisis que puede generar un informe al ser presentado por medio de visualizaciones y filtros
  • Lenguaje DAX aplicado: “Data Analysis Expressions” es un lenguaje el cual se vincula a funciones o expresiones matemáticas las cuales se utilizan en referencia a los modelos creados en BI
Interfaz de Microsoft Power BI
La imagen tiene un atributo ALT vacío; su nombre de archivo es datlas_promo_youtube_suscribe-1.png

Caso de Uso en Microsoft Power BI

Una de nuestras primeros informes en Power BI fue un caso de uso para analizar las ventas previstas y generadas por una segmentación de vendedores aplicando diferentes tableros para visualizar desde una tabla de excel hasta ciertos tableros inteligentes los cuales contenían filtros por segmentación.

A continuación te mostramos una visualización del ejercicio de monitoreo;

Animated GIF
Podemos notas que las visualizaciones son dinámicas, que tanto tableros y filtros se conectan al reporte.

Hasta aqui la columna de hoy, recuerda continuar la conversación en nuestras redes via @DATLASMX, y cuéntanos si en tu organización les gustaría algún Dashboard inteligencia con la metodología aprendida.

Equipo Datlas

– Keep it weird –

GEOFENCING EL FUTURO DEL MONITOREO TURÍSTICO – Investigación Datlas

En Datlas somos apasionados de la analítica de datos, es por ello que nuestro objetivo es usar cada una de las metodologías y herramientas para reunir información relevante y convertirla en decisiones para todas aquellas organizaciones del empaquetamiento por el tipo de industrial.

En este caso les hablaremos acerca del «geofencing» que puede ser utilizada de manera potencial en la industria del turismo y organizaciones vinculadas a esta industria, durante el blog desarrollaremos el contexto, la composición, el uso y la oportunidad de la analítica utilizando la práctica del «geofencing».

** Te pudiera interesar ¿Cómo funcionan los AGEBS?

¿Qué es el Geofencing?

El geofence es un perímetro delimitado de manera virtual en un área geográfica que mediante un sofware recupera información importante de conectividad proporcionado vía GPS y mediante el uso de datos de un dispositivo móvil. Así estableciendo una valla virtual para diferentes alcances de mercadotecnia principalmente en usuarios de aplicaciones tecnologicas.

What Is Geofencing? | A Primer to Geofence Marketing | Datarade

Componentes del Geofencing

La composición del geofencing es un tanto compuesta para llegar el objetivo de reunir la geo localización de los dispositivos los compoenentes onstan de:

  • Valla Virtual Desarrollada: Creada por desarolladores del sofware en específico para almacenar la información recuperada de cada dispositivo
  • Conectividad (Dipositivo Móvil): Se necesita de una gran cantidad de usuarios y la conexión por medio de datos o WIFI para hacerlo posible
  • Activación GPS (Localización): Es importante el requerimiento de la activación del GPS para cada uno de los dispositivos móviles
Car dealers use geofencing to pinpoint shoppers and pull them in with ads |  Automotive News

** Te pudiera interesar también: ¿Cómo hacer Isocronas en QGIS?

¿Cómo puede ser utilizado?

El geofencing se utiliza cómo herramienta para apalancar las áreas de las industrias en dónde la potencialidad del mercado sea siempre la conectividad de los usuarios entre los usos más relevantes son:

  • Turismo: En el turismo se puede utilizar esta técnica vía antenas proximidad en dónde los usuarios se conecten por medio de WIFI y logren conectarse registrando algunos datos importantes (edad, sexo, procedencia, etc)
  • Geo-analíticas: Por medio de este apartado se puede definir ciertos datos demográficos en zonas, municipios o colonias que se encuentren al entorno al conectarse por medio de datos por medio de una aplicación o página web,
  • Seguridad: El geofence es un técnica tambien de seguridad en dónde haya oportunidad de generar notificaciones cuando entren o salgan del área delimitada esto ayudando a los usuarios más vulnerables.
  • Marketing: Dentro del marketing es un uso potencialmente valorado, ya que por medio de las aplicaciones o páginas webs se realiza esta técnica de una valla virtual dónde ya se encuentre analizado el entorno y la venta de os productos o servicios se encuentre más dirigida.
Geofencing Use-Cases: Where to Use Geofencing in 2021? | Beaconstac

Oportunidad de Analítica en Turismo

Para la industria del turismo es una técnica que sustenta la trazabilidad de los visitantes, desde que llegan al aeropuerto o centrales de autobuses hasta los diferentes puntos de interés que hay en las ciudades grandes y con potencial de turismo.

Actualmente una herramienta la cual creamos en Datlas sucede con la visualización de información turística que se integra el MONTERREY TRAVEL INTELLIGENCE DASHBOARD impulsado por el Clúster de Turismo de Monterrey en el Estado de Nuevo León.

Uno de los objetivos es la integración de datos de antenas de proximidad que hay en los diferentes puntos turísticos en el área metropolitana de Monterrey, con esta metodología podemos realizar un análisis de trazabilidad de visitantes que se conectan vía WIFI desde diferentes terminales de aereopuerto hasta los puntos turísticos de interés en la ciudad.

Con esta información podemos tomar decisiones respecto a la localización e intereses de los visitantes en dónde más desean estar, así como la derrama económica de la ciudad y las áreas de oportunidad que podemos analizar con esta información.

** Te puede interesar ¿Cómo encontrar clientes potenciales usando mapas?

WHAT and HOW of geofencing advertising and emerging trends in 2019 |  Quantamix Solutions

Hasta aqui la columna de hoy, si conoces a alguien que esté liderando una transformación digital y estrategias de analítica en su organización compárte este blog.

Déjanos tus comentarios.

Datlas

-Keep it weird.

Fuentes:

Las «soft-skills» más necesarias para ser exitosos en el mundo de las tecnologías –

De acuerdo al Instituto de estudios d la Universidad de Stanford y Carnegie-Mellon «75% del éxito de largo plazo en un empleo depende de habilidades interpersonales y sólo 25% en conocimiento técnico. De acuerdo a la Universidad de Harvard «85% del éxito en un empleo proviene de tener bien desarrolladas las habilidades blandas (soft-skills) e interpersonales.

En esta columna enfatizaremos la importancia de las habilidades blandas en carreras profesionales alrededor de la tecnología.

Te graduaste y/o capacitaste en TI, trabajas y ¿Qué te espera?

((Leamos a @catalinmpit que nos habla de su realidad))

Y es que la mayoría de las veces nos capacitan para programar, pero realmente un gran porcentaje del tiempo se pasa resolviendo problemas lógicos y de eficiencia. Y bueno, por qué no, distintas dinámicas de inspiración para esos problemas: Googleos, Cafés, charlas con colegas, entre otros… hasta que «por iluminación» la respuesta al problema llega.

Detrás de todo esto, hay muchas habilidades blandas. Entre líneas, este mensaje nos dice que tenemos que ser capaces no sólo de lo que define tu puesto «Ingenier@s de Sistemas == Codear» , sino también detrabajar en equipo. Y por qué no traducir necesidades de negocio en soluciones técnicas.

**También puedes leer «Estas son las habilidades que l@s ciudadan@s del futuro necesitarán: https://blogdatlas.wordpress.com/2021/08/15/las-habilidades-que-ciudadanos-necesitaran-en-el-futuro-investigacion-datlas/

Las habilidades blandas (soft skills) más demandadas

De acuerdo al WEF (World Economic Forum) estas son las habilidades suaves más demandadas:

  1. Inteligencia emocional: ¿Cómo manejas tus emociones? Sobre todo en períodos de urgencia y alto estrés
  2. Resolución de problemas: ¿Cómo estructuras una resolución de problemas y logras mostrar evidencia a tus colegas? Hablar en idioma especializado no siempre es la mejor solución para los colegas de negocios
  3. Pensamiento Crítico: ¿Cómo proponer nuevos retos y perspectivas diferenciadas en las direcciones que se siguen en la organización? Esto con el propósito de ampliar panoramas y no de entorpecer los procesos activos
  4. Toma de decisiones: ¿Cómo mostrar resiliencia y responsabilidad en la toma de decisiones? Cuando el equipo toma una decisión y no estuve de acuerdo muestro una actitud de soporte porque fue la dirección que mi equipo planteó que siguiéramos. En ese sentido no me vuelvo un «profeta del pasado» restregando que debimos de haber ido en la otra dirección, sino muestras capacidades de aprendizaje colectivo
  5. Creatividad: ¿Puedo pensar fuera de las formas tradicionales? Generar ideas productivas con la adopción de nuevas herramientas y habilitando los pronunciamientos estratégicos de la compañía
  6. Orientación de servicio: ¿Cómo soy empático con las necesidades, sentido de urgencia y agendas del resto de mi equipo? En ese sentido vuelvo alguien que agrega valor a la organización no sólo por mi trabajo individual sino por mis aportaciones al colectivo
  7. Sociabilidad: ¿En qué medida identifico dónde construir una relación y busco generar incentivos positivos que la refuercen? En muchos casos la gente que más rápido avanza a las organizaciones es la que tiene más desarrollada esta habilidad
  8. Negociación: ¿Logro encontrar puntos intermedios en disputas donde distintas partes se lleven una versión de triunfo?
  9. Colaboración: ¿Cómo gestionar a otros miembros del equipo y mostrar liderazgo cuidando su desarrollo profesional?
  10. Flexibilidad: ¿En un entorno tan cambiante cómo soy flexible a los cambios de dirección y los adoptos como nuevas oportunidades?

**También te puede interesar nuestro blog: SISTEMA ILUO para nivelar habilidades en los distintos roles de tus equipos

Otro gran mensaje en relación a estas y otras habilidades lo podemos aprender de SUE SIGEL en esta conferencia que impartió en STANFORD

El gran mensaje es incrementar nuestra «Noción de empatía» en la oficina. No olvides este mensaje si quieres encontrar una motivación o punto de partida para desarrollar estas habilidades. No se trata de sonreírle a todos a diario o llevarles el café. Es más complejo que ello, pero ya identificando tu agenda de habilidades suaves será cuestión de tiempo para que las desarrolles, aprendas de algunos colegas y crezcas en tu futuro.

Continúa la conversación y te invitamos a que nos menciones tus habilidades blandas más relevantes en @DatlasMX .

Y si quieres seguir creciendo en conocimientos suscríbete gratuitamente a www.datlasacademy.com en donde por lanzamiento tenemos 3 cursos gratis para los suscritos

SUSCRÍBETE AHORA

Equipo Datlas –

Keep it weird

Fuentes:

Dimensionando la industria de «Analítica de datos e Inteligencia Artificial» 2021 – Investigación Datlas

Nuevamente es el año 2021 y el ecosistema de la industria de productos-servicios de analítica de datos e inteligencia artificial se expande. Hace 2 años promovimos la publicación de matttruck.com quien dimensiona período a período el tamaño de la industria y sus distintos nichos.

En esta columna compartiremos la actualización al 2021.

** Revisa la edición del 2020: https://blogdatlas.wordpress.com/2020/02/04/dimensionando-industria-analitica-datlas/

Industria de analítica e inteligencia artificial 2021

Según el reporte podemos encontrar 7 industrias y varías sub-industrias para la industria de “datos” (Analítica, big data e inteligencia artificial).  Ahora haremos un pequeño enfoque a cada una.

1) Infraestructura

Este nicho contempla todo lo que tiene que ver con: Almacenaje, almacenaje distribuido, lago de datos, similares de almacenaje de bases de datos, herramientas para ETL, integraciones de datos, gobernanza de información, monitoreo de indicadores, entre otros.

2) Analítica y Machine Learning(ML)

Esto contempla todas las plataformas de inteligenica de negocios, visualización de datos, plataformas de analistas de datos, anlítica aumentada, catálogos, analytics de logs, búsqueda de información, entre otros.

3) Machine Learning e Inteligencia Artificial

Este grupo tiene como subgrupos los sistemas de documentación tipo «Notebook», plataformas de ciencia de datos, plataformas de ciencia de datos, etiquetado y generación de información, construcción de modelos, visión computacional, procesamiento de lenguaje computacional, sistemas conversacionales, hardware, entre otros.

4) Aplicaciones con enfoque a empresa e industria

Aplicaciones para empresa como marketing b2c, marketing b2b, ventas, experiencia del cliente, capital humano, legal, finanzas, automatización, seguridad. Otro tipo de aplicaciones como de educación, ciencias, inmobiliarias, finanzas, seguros, transportación, agricultura, entre otros.

5) Open source – Fuentes abiertas

Todo lo relacionado a fuentes abiertas (Y la mayoría gratuitas y con comunidades activas abonando). Como por ejemplo: Frameworks de trabajo, formatos, consultas tipo «query», bases de datos, orquestación, deep learning, colaboración, seguridad, entre otros.

6) Fuentes de Datos y APIs

Fuentes de datos como mercados de información, datos económicos, del aire, del espacio de mares, inteligencia geográfica, entre otros.

7) Más recursos de datos

Finalmente los recursos de datos que integran otros servicios de datos, escuelas e incubadoras y de investigación.

De la misma fuente, generaron un índice de compañías que más han levantado capital.

En ese sentido, varias de las compañías del ecosistema han mostrado fondeos impresionante ayudando a complementar el mensaje de lo vigorizante que es este tipo de industrias y el crecimiento que ha tenido.

¿Habías pensado que la industria de analítica de datos e inteligencia artificial era tan grande? ¿Sería interesante ver este tipo de dimensionamientos para Latinoamérica o Iberoamérica? Continúa la conversación en @DatlasMX.

Aprende más consultando nuestro DataPlaybook en línea y revisando DatlasAcademy (www.datlasacademy.com)

Fuente original para realizar esta columna: https://mattturck.com/

Equipo Datlas

– Keep it weird –