Métodos, métodos y más métodos. Aunque parecer que en el largo plazo limitan nuestra imaginación son herramientas que facilitan la entrada, práctica y control en un campo de dominio que queremos alcanzar. Desde Datlas, nuestra startup de analytics, hemos trabajado con «métodos de data science» en nuestros proyectos internos, aún sin tener usuarios. Ahora que los tenemos les puedo confirmar que el método es uno de los recursos más importante para establecer claridad en la comunicación y avances de los proyectos. En esta columna expondremos 3 de los métodos más usados en proyectos de ciencia de datos. Al final también integraremos nuestra propia versión de método de trabajo.
** Si quieres aprender más de analítica, datos y transformación digital inicia de manera gratuita con 3 cursos que ofrecemos en www.datlasacademy.com
1) KDD (Knowledge Discovery in Databases)
Metodología de 5 pasos. Inicia con la selección donde de un data set principal hay que selecciónar un subconjunto de variables que nos pueden apoyar en la exploración del fenómeno que estamos estudianto. En el pre-procesamiento realizamos la limpieza y balanceo de datos. En la transformación, el método sugiere que reduzcamos dimensiones con técnicas estadísticas para manejar la menor cantidad de variables necesarias. En minería de datos buscamos patrones de interés o representativos en relación al objetivo de la minería de datos. Finalmente para colarnos al conocimiento pasamos por el proceso de intepretación y evaluación de modelo. Al final de la iteración se le otorga una calificación al modelo y si no se cumplieron satisfactoriamente los objetivos se repite hasta que sean logrados.
2) SEMMA (Sample, Explore, Modify, Model and Access)
En esta metodología iniciamos con «sample» o un muestro de la base de datos principal (que asumimos que es muy pesada y lenta de procesar) para poder hacer manipulaciones sobre este pequeño set de una manera ágil. Después exploramos los datos para ganar entendimiento e ideas, así como refinir nuestro proceso de búsqueda de anomalías, patrones y tendencias. Llegamos entonces al paso de modificar donde nos enfocamos en crear, seleccionar y transformar variables para enfocarnos en un proceso de selección. En esta etapa también se buscan anomalías y reducir el número de variables. Luego sigue la etapa de modelaje en donde debemos aplicar distintos métodos estadísticos evaluando sus fortalezas y cumplimiento de objetivos. Finalmente la etapa de «access» que significa evaluar la confiabilidad y utilidad de los hallazgos. Se evalúa particularmente el «performance».
De la misma manera del modelo anterior, si no se logran los objetivos en una primera iteración tendremos que repetir el proceso.
3) CRISP-DM (Cross-Industry Standard Process for Data Mining)
Seguimos con el «famosisimo» CRISP-DM, el método más usado en la industria y es que IBM, la compañía dueña de Watson que antes desarrollaba poderosas computadoras, es quien desarrolló este modelo. La diferencia clave es que cualquier etapa del modele puede tener retorno o iniciar una reversa al método. Si durante la etapa en particular el especialista encontró que los datos no son suficientes para resolver su objetivo, puede regresar a cualquiera de la otras etapas.
En la etapa de «Entendimiento de negocio» primero se determinan los objetivos de negocio: Antecedentes, objetivos estratégicos de impacto y criterios de éxito. Después revisamos la situación, inventariamos recursos, realizamos un análisis de costo-beneficio, determinamos objetivos y producimos un plan de proyecto.
En «Data Understanding» es donde recolectamos los datos iniciales, describimos cada uno de estos datos, exploramos y verificamos la calidad de la información.
En «Data preparation» seleccionamos la información más razonable, la limpiamos, construimos variables de ser necesario, integramos datos y finalmente formateamos. El entregable de esta etapa sería un dataset listo para trabajar.
Para la etapa de «Modeling», similar a los otros modelos, experimentamos con distintas técnicas, consideramos supuestos, hacemos pruebas, definimos parámetros y revisamos funcionalidad general de los modelos.
En «Evaluación» es donde considerando los criterios de éxito definidos consideramos como positiva y/o negativa la evaluación. Aqui mismo definimos los siguientes pasos y tomamos las decisiones necesarias.
Finalmente en «Deployment», esta etapa sólo se activa si el proyecto tuvo evaluación positiva. Se genera entonces un plan de desarrollo, un plan de mantenimiento, se genera un reporte final y presentación para socializar el caso de estudio.
Comparando métodos
A manera personal pienso que el CRIPS-DM se lleva de calle los métodos de antes. Por algo es más usado el CRIPS-DM y principalmente porque mezcló la necesidad de entendimiento del negocio con la parte científica del desarrollo de análisis de datos.
*Si quieres aprender más de arquitectura y proyectos de datos revisa este blog (Data Lake Vs. Data Warehouse Vs. Data Mart)
4 ¿Cómo lo trabajamos en Datlas?
Nuestro método, titulado «Laboratorio de Datos», es similar a los modelos revisados con anterioridad. Tras un entendimiento central de negocio (En donde se ubica la imagen de nuestro mapa en el diagrama superior) entendemos las necesidades del negocio, dimensionamos el proyecto y seleccionamos los métodos experimentales. Ese entendimiento no necesariamente te tiene que llevar a la extracción de datos, ya que puede haber un avance previo. Sobre todo nosotros que trabajamos con datos de clientes, en muchas de las ocasiones llegamos a integrar o clasificar.
Asumiendo que sea un proyecto tradicional, iniciamos en la etapa de extracción donde dimensionamos y entendemos el tipo de variables con las que vamos a trabajar. En nuestro caso generamos un glosario de variables- Para la integración y clasificación buscamos ir preparando un ambiente de trabajo que nos permita geo-referenciar y mapear variables. Si estos 3 pasos iniciales cuentan con una evaluación positiva podemos pasar a la etapa de visualizar o reportar. Cuyo objetivo principal es generar los principales recursos para socializar y pedir retroalimentación a los usuarios potenciales. Tras realizar los ajustes necesarios podremos llegar a entrenar un modelo con técnicas de inteligencia artificial. Los pasos en el método son iterativos y se puede regresar a cualquier paso una vez que el entendimiento central del negocio se va enriqueciendo con cada etapa del proceso.
Para más detalle de este método puedes solicitar una conferencia o sesión de capacitación en direccion@datlas.mx
**También te puede interesar: ¿Cómo aprender ciencia de datos? 6 pasos
Hasta aqui la columna de hoy. ¿Cuál es tu método y como darle libertad a la creatividad en el proceso? ¿Cuál seleccionarás para tu siguiente proyecto? Comparte con tus colegas y comenta qué crees que podría mejorar los métodos de ciencia de datos.
-Keep it weird-
Pingback: CORONAVIRUS PT. 2/2 – CONSTRUYENDO UN MODELO DE RESPUESTA INMEDIATA CON DATOS GEOESPACIALES (DATLAS RESEARCH) | Blog de www.datlas.mx
Pingback: 5 errores analizando bases de datos inmobiliarias y cómo evitarlos – Datlas research | Blog de www.datlas.mx
Pingback: ¿PODRÍAS SER más propenso a chocar que otra persona SÓLO POR TU MODELO DE AUTO? La respuesta puede ser “sí” – DATLAS INVESTIGACIONES | Blog de www.datlas.mx
Pingback: ¿Qué es la Ciencia de Datos (Data Science)? Según Google – MANUALES DATLAS – Blog Datlas