Hoy en día la transformación digital cuenta con distintos pilares dentro de los que destaca la analítica o análisis de datos. Apalancar todo el valor que esconden las grandes cantidades de información disponibles en la actualidad permite que los negocios y la sociedad, en general, se organice y genere valor de formas innovadoras. Para lograr un análisis de datos, la materia prima es clave: las bases de datos. Como cualquier materia prima las bases de datos guardan atributos y características que las hacen ser mejores o peores al momento de ser utilizadas como input para un análisis. En esta columna vamos a revisar 4 sencillos pasos con los que podrás asegurar que tus bases de datos estén preparadas y listas para realizar análisis de calidad que generen un verdadero valor diferencial para tu negocio. Estos 4 pasos son: limpieza, reestructura, homologación y clasificación.
#1 Limpieza de datos
El llamado data cleansing, por su traducción al idioma inglés, es el proceso de descubrir y corregir o, en casos extremos, eliminar registros de datos que han sido identificados como erróneos dentro de una tabla o base de datos. Este proceso de limpieza de datos permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego sustituir, modificar o eliminar estos datos sucios.
Hay distintos métodos para limpieza de datos. Uno de ellos es el análisis gramatical que identifica errores de sintaxis, es decir, si el sistema lo tiene declarado como una variable numérica y el usuario registro una palabra, este tipo de análisis lo identifica. Existe la transformación, que básicamente ajusta los datos dentro de un formato esperado, en la mayoría de las ocasiones la transformación es para normalizar los datos y ajustarse a valores mínimos y máximos. Otra forma es el eliminar duplicados, que como su nombre lo dice, simplemente identifica registros repetidos y elimina uno de ellos. Finalmente, existen métodos estadísticos mediante los cuales la estadística descriptiva hace visualmente reconocibles las anomalías y posteriormente expertos se encargan de ajustar ese tipo de datos mediante la sustitución de los mismos por valores promedios o algún otro tipo de tratamiento, dependiendo de la naturaleza del dato.
Una vez detectados estos datos “sucios” es necesario identificar las causas para poder establecer flujos de trabajo ejecutables de forma automática para que corrijan o excluyan este tipo de datos. En temas técnicos es común el uso de bibliotecas como Pandas para Python o Dplyr para R.

#2 Reestructura de bases de datos
Este segundo paso del proceso de preparación de bases de datos tiene que ver literalmente con tomar una base de datos de cierta estructura como, por ejemplo, 10 columnas por 3 filas y alterarla de tal forma que al final quede una base de datos completamente nueva de, por ejemplo, 6 columnas por 7 filas, pero con los mismos datos ya limpios que obtuvimos en el paso anterior. Para ilustrar este punto utilizaremos un ejemplo muy sencillo:
Supongamos que levantamos una encuesta sobre productos y marcas que podemos encontrar en el baño de cada entrevistado. Los resultados de la encuesta nos darían una base de datos de la siguiente forma:
Entrev | edad | sexo | Prod_1 | Prod_2 | Prod_3 | Marca1 | Marca2 | Marca3 | NSE |
1 | 10 | F | Desodo
rante | Pasta de dientes | Jabon líquido | AXE | CREST | NUBELUZ | A |
2 | 25 | M | Pasta de dientes | Sham
poo | Jabon en gel | COLGATE | ELVIVE | AMIGO | B |
3 | 23 | F | Crema para peinar | Pasta de dientes | Jabon de barra | SEDAL | COLGATE | ESCUDO | C |
Si quisiéramos que los datos nos digan que artículos son los que las mujeres de 24 a 30 años tienen en su baño, necesitamos manipular los datos de forma que podamos obtener como respuesta a esta pregunta un cálculo de frecuencia.
En este segundo paso es donde tomamos en cuenta las hipótesis o los objetivos de análisis para generar la reestructura de la información. En este caso, por ejemplo, la base de datos ya reestructurada quedaría así:
Entrevistado | Edad | Sexo | Num_Prod | Descripcion | Marca |
1 | 10 | F | 1 | Desodorante | AXE |
1 | 10 | F | 2 | Pasta de dientes | CREST |
1 | 10 | F | 3 | Jabón Líquido | NUBELUZ |
2 | 25 | M | 1 | Pasta de dientes | COLGATE |
2 | 25 | M | 2 | Shampoo | ELVIVE |
2 | 25 | M | 3 | Jabon en gel | AMIGO |
3 | 23 | F | 1 | Crema para peinar | SEDAL |
Con lo cual podríamos establecer, suponiendo que utilicemos Excel, un filtro en la columna de edad para seleccionar las edades superiores a 24 años e inferiores a 30, al mismo tiempo que filtramos en la columna de sexo la letra F (de femenino) y simplemente calculamos el total de filas que quedan desplegadas de la tabla. De esta manera respondemos la pregunta inicial.
#3 Homologación de bases de datos
En este punto ya comenzamos a jugar con distintas bases de datos, es decir, muchas veces las empresas tienen distintas áreas donde el modo con el que tratan los datos es distinto. Por lo tanto, al momento de tratar de unificar resultados o compararlos, puede que no se estén tomando parámetros similares y eso difícilmente podrá permitir que se realicen cruces de información de manera eficiente.
Al homologar bases de datos es necesario generar estructuras preestablecidas y un glosario de variables que defina claramente los formatos y las especificaciones necesarias para cada tipo de variable registrada. Un caso muy común por ejemplo es el formato de fechas entre dos bases de datos distintas, mientras uno maneja el formato día/mes/año otro tiene registros como mes/día/año con lo que a la hora de hacer un cruce de información las fechas nunca logran empatar y es imposible realizar un cruce de forma adecuada.

#4 Clasificación de bases de datos
Finalmente, tenemos el paso de clasificación. En este punto literalmente el objetivo es darle una etiqueta o categoría a cada base de datos de acuerdo al contexto que estemos manejando, la utilidad de la misma base de datos o las necesidades que estas satisfagan al interior de la organización. De forma general existen dos tipos de clasificaciones para las bases de datos: según la variabilidad de los datos o según su contenido.
Dentro de la primera clasificación existen las bases de datos estáticas, que generalmente son bases de datos de consulta, con registros históricos que no van a cambiar. El típico ejemplo aquí son las ventas de hace 5 años para una compañía de artículos deportivos. Por otro lado, están las bases de datos dinámicas, donde la información cambia a través del tiempo por actividades como: actualización, borrado y edición de datos. El mejor ejemplo en este caso son las bases de datos de clientes (CRM) donde hay constantes actualizaciones de información o incluso eliminación de prospectos.
En la segunda clasificación tenemos las bases de datos bibliográficas, que guardan literalmente registros de autor, fecha de publicación, editorial, etc. En contraste existen las bases de datos de texto completo que almacenan el contenido completo de las citas bibliográficas anteriormente citadas, por ejemplo. También existen subclases como directorios, bibliotecas, etc.

De esta forma logramos tener una integridad entre los datos almacenados, la base de datos que los resguarda, las distintas bases de datos dentro de una organización y su capacidad de complementarse al momento de realizar un análisis. Así de fácil podemos cuidar la calidad de nuestros datos para asegurar que podamos aprovechar todo el poder y las ventajas del big data a la hora de realizar analítica.
Si te interesa conocer más acerca de estos procesos o necesitas ayuda con tus bases de datos, visita nuestro Marketplace o contáctanos en nuestras redes sociales
@DatlasMX
Pingback: Estándares de calidad para Datos (Data quality standards) – Investigación Datlas – Blog Datlas
Pingback: La Evolución del Almacenamiento en las Bases de Datos a lo Largo del Tiempo – Investigación Datlas – Blog Datlas