Archivo de la etiqueta: datos estructurados

V de Variedad en Big Data: datos estructurados y no estructurados

En más de una ocasión hemos tenido la oportunidad de presentarnos en foros donde hablamos de Big Data como esta nueva gran tendencia dentro del marco de la transformación digital. Al comenzar cada una de nuestras presentaciones, como es nuestra fiel costumbre, contextualizamos acerca de los conceptos que abordamos. Dentro de la explicación de lo que es el Big Data hacemos referencias a las famosas 5 Vs: Volumen, velocidad, variedad, veracidad y valor. Implícitamente, dentro de la característica de variedad hablamos del origen de los datos, las fuentes de donde provienen y del tipo de estructura que tienen. En esta columna vamos precisamente a profundizar en los datos y las bases de datos estructuradas y no estructuradas, lo que son y como es que nosotros las apalancamos dentro de los reportes automatizados Laura para capitalizar un mejor entendimiento, análisis y descubrimiento de oportunidades con alto impacto para el negocio.

free_Suscriber

Como punto de partida hay que entender a que nos referimos con datos estructurados y no estructurados. En primer lugar, los datos estructurados se refieren a la información que se suele encontrar en la mayoría de las bases de datos relacionales (Relational Database Management System o RDBMS por sus siglas en inglés), es decir, en un formato estructurado usando filas y columnas. Suelen ser archivos de texto que se almacenan en formato tabla u hojas de cálculo con títulos para cada categoría que permite identificarlos. Son datos que tienen perfectamente definido la longitud, el formato y el tamaño y que pueden ser ordenados y procesados fácilmente por todas las herramientas de minería de datos. De igual manera, los datos pueden generarse de forma humana o mecánica siempre que los datos se creen dentro de una estructura RDBMS. Para ejemplificarlo de forma más simple, imagina cuando tomaban lista en el salón de clase y el profesor tenía una tabla con nombres, apellidos, la fecha de la clase y un montón de palomitas. Así se “ven” los datos estructurados.

El pase de diapositivas requiere JavaScript.

Por otro lado, existe una clasificación diametralmente opuesta a esta: los datos no estructurados. Aunque si bien entendemos que técnicamente existe también el término de datos semiestructurados en esta ocasión utilizaremos los opuestos para ejemplificar el punto de la variedad dentro del big data y los beneficios de fusionar los distintos tipos de datos a la hora de generar los análisis. Así que, volviendo al tema, los datos no estructurados, que son la otra cara de la moneda son aquellos datos, generalmente binarios, que no poseen una estructura identificable. Es un conglomerado masivo y desorganizado de varios objetos que no tienen valor hasta que se identifican y almacenan de manera organizada. No tienen un formato especifico, pueden ser textuales o no textuales. En su modo más simple, son documentos en PDF, archivos de Word, videos, audios, las fotos satelitales de las hectáreas de siembre que tiene una empresa agrícola, entre otros ejemplos. De la misma forma que los datos estructurados, este otro tipo de datos puede ser generado tanto por humanos como por maquinas.

datlas_mx_blog_datos_no_estructurados
Ejemplo de datos no estructurados (textual)

Ahora bien, ¿Qué relevancia tiene esta variedad de los datos? ¿Qué relación guarda con esto del Big Data? Pues precisamente estadísticas mostradas por empresas como Kyocera estiman que alrededor del 80% de la información relevante para un negocio se origina en forma no estructurada, principalmente en formato texto. Esto quiere decir que, al tener la posibilidad de integrar datos no estructurados al análisis, automáticamente el volumen de información (otra de las V del Big Data) disponible para análisis aumenta a más del doble. Imagínate que llegara un nuevo vendedor y pudiera leer todos los corres de prospección escritos en los últimos 5 años de historia de la compañía. Toda la riqueza detrás de ese tipo de ejercicio hoy es posible gracias al Big data, pero tomar ventaja de los datos no estructurados es una tarea retadora, ya que existe la necesidad de organizar los archivos, categorizar el contenido y entonces obtener información que pueda estructurarse de tal forma que sea capaz de fusionarse con los datos ya estructurados. Aunque sin duda hoy existen en el mercado herramientas de software para el procesamiento, gestión o almacenamiento de este tipo de datos, sigue siendo importante el papel de los analistas de negocio o los mismos dueños para establecer una priorización de esfuerzos con base al beneficio potencial que pudiera obtenerse de ese esfuerzo por capitalizar los datos no estructurados.

datlas_mx_blog_datos_no_estructurados_a_estructurados

Finalmente, desde nuestra experiencia hemos logrado consultar bases de datos estructuradas y no estructuradas para realizar los reportes automatizados de Laura y entregar un verdadero valor agregado al cliente comparado al de los estudios tradicionales que generaba un equipo de analistas sin este tipo de herramientas. Tomemos como ejemplo las redes sociales, un tweet. Hoy es muy común que la gente se exprese libre y abiertamente en twitter acerca de lo que le gusta, le disgusta o incluso donde esta. En nuestro caso, uno de los elementos integrados dentro de Laura es el análisis de tráfico peatonal por categoría de negocios, es decir, que tanta gente está tweeteando acerca de una cierta marca de restaurante o producto. Para poder apalancar estos datos de forma inteligente se hace un proceso de análisis de texto que extraer el nombre del establecimiento, lo coteja con un diccionario de negocios, lo clasifica dentro de la categoría a la que pertenece ese negocio y finalmente lo agrega, de forma estructurada, en una base de datos que pasa a ser consultada como un mapa de calor dentro de nuestras plataformas de Mapas de Inteligencia y a su vez como una imagen de la ubicación analizada y el entorno al hablar de los reportes Laura. Esto nos ha permitido apoyar a negocios a tomar mejores decisiones de ubicación, ponderando no solamente los típicos indicadores estructurados y “fijos” sino también la información no estructurada y, en este caso, dinámica para ofrecer una perspectiva realmente nueva y más holística de las condiciones a las que se enfrenta el negocio al momento de tomar una decisión.

datlas_mx_casos_uso_consultoria_derrama_economica_luztopia_2019

Como este caso hemos aprovechado otro tipo de datos no estructurados para apoyar a empresas de distintas formas, en tu caso ¿generas información no estructurada? ¿te interesa aprovechar el poder que esconde esa información? ¿o simplemente te gustaría experimentar con la información no estructurada que existe allá afuera y que hoy podemos poner a tu disposición? Contáctanos y cuéntanos

@DatlasMX