Archivo de la etiqueta: fracaso en analitica

¿Cómo identificar A un impostor de datos? – datlas emprendedores

Ya conoces de nuestras otras columnas que hemos hablado que además de los científicos de datos hay muchos otros roles en el campo de la analítica avanzada de datos. Puedes leerlo en “Los 5 perfiles en una estrategias de datos”. Quienes no redujeron presupuestos en pandemia han creado nuevos departamentos de analítica avanzada. Esto aplica para compañías de todo tipo de tamaño. Por lo mismo, la demanda de capital intelectual de ciencia de datos se ha incrementado y la oferta es insuficiente. Por esta razón, existen situaciones en las que personas con poca o insuficiente formación en el campo atienden proyectos de analítica. La falta de respaldo en el campo se empieza a traducir en altas rotaciones, pérdida de fe en retornos de inversión para proyectos de ciencia de datos y/o reducción de presupuestos. En esta columna compartiremos algunos consejos de cómo detectar a “impostores de datos” con algunas revisiones puntuales al momento de entrevistar personas.

1) Los charlatanes de datos se esconden en todo tipo de equipos y áreas. Se rodean de gente capaz, pero se camuflajean entre la estadística y los análisis de negocio

Es útil entender que analítica y estadística son dos tipos de campos de dominio distintos. En estadística se aprende a entender el valor más allá de los datos, sintetizando un entendimiento global de variables a partir de tendencia central, identificando problemas en una serie de tiempo, excepciones en variables categóricas y más que nada encontrando significancias. Un analista, por otro lado, está preparado para entender y dimensionar una base de datos con mayor conocimiento del campo de dominio del negocio. Generar a partir de relaciones conclusiones y mensajes de oportunidad para una empresa.

En la práctica, los roles de de ciencia de datos requiere la función híbrida. Un analista se quedaría corto si no conoce suficiente de estadística para validar pruebas de hipótesis. Y un conocedor de estadística requiere una visión global al momento de enfrentarse a un problema de datos. Cuidado de caer en la falacia de que estas funciones “duermen” por separado.

Te puede interesar leer “Por qué fracasan los proyectos de datos”

2) El arte de manejar la incertidumbre, los “outliers” (anomalías) y faltantes

Un buen analista es similar a un doctor al momento de iniciar un nuevo paciente. Lo primero es generar un diagnóstico, no importa cuántas personas hayan diagnosticado antes las bases de datos a trabajar, hay que realizarse una serie de preguntas sobre el problema de datos que se va a enfrentar. Alejarse de este diagnóstico es quedar fuera de un verdadero proyecto de ciencia de datos.

De hecho, puedes leer “Cómo construir un checklist para proyectos de analítica de datos”. Los impostores de datos muchas veces se enfocan más en entregar los resultados al jefe y olvidan la parte artesanal de curar los datos para tener la estructura de datos óptima para resolver un problema en especifico.

3) Más seducidos por el p-value significancia estadística que la significancia de los resultados para la estrategia del negocio

La obsesión por la técnica estadística no necesariamente está asociada a un buen desempeño como científico de datos. Tener talento académico y seguir los principios de estadística en un ejercicio de análisis de datos es importante. Pero debe haber una obsesión con generar resultados objetivos para el negocio.

Una vez que prioricemos ese objetivo, los verdaderos científicos de datos no se detendrán con su entendimiento estadístico. Querrán conocer e identificar el ADN del negocio.

4) El arte de generar variables para llegar conclusiones que hagan sentido

Un analista serio no comenzará su análisis con las variables que le entregaste para trabajar. Buscará explorar y desarrollar nuevas variables. Por ejemplo, cuando trabajas con latitudes y longitudes y quieres trabajar algún modelo como una regresión. Los campos no deben ser ingresados como tal ya que los modelos lo pueden interpretar como variable numérica y en realidad ni representan una dimensión. Debemos de generar un punto de referencia y la distancia hacia el mismo, como el los kilómetros del punto al centro de la ciudad, una escuela cercana, un hospital o algo similar. Para que nuestra conclusión de regresión pueda ser interpretada como “por cada cambio en X variable, existe un cambio en Y”. Por “cada kilómetro que más me alejo del centro de la ciudad, cae X nivel de ventas”. Es común en las pruebas aplicadas para científicos de datos poco preparados este tipo de carencias salgan a relucir.

Si quisieras saber algunos consejos de cómo deberías reclutar a tu equipo de analítica no te olvides leer “Diseño de perfiles y áreas de analítica en organizaciones”. o escuchar nuestro podcast “Café de Datos”.

5) Un charlatan de datos llega a conclusiones demasiado rápidas… a conveniencia

Un experimento de datos no se puede declarar exitoso si sólo se pone a prueba con una serie de datos. Un buen “Testing” es aquel que se experimenta en distintas condiciones, con datos que estuvieran vigentes en temporalidades distintas y , si es posible, estresado bajo modelos contrastantes.

Un charlatán de datos usará más de su tiempo en convencerte que el primer resultado fue el correcto o que su método es el único en lugar de buscar formas de contradecir el ejercicio inicial iterando con otros datos el modelo en cuestión.

6) La culpa es del modelo que fue tonto, no mía

La última, tiene más que ver con una actitud, pero un impostor de datos hará responsable “al modelo”. Hará referencia a que es de “caja negra” y que no es posible explicar el impacto de cada variable al resultado. Mucho cuidado con estos colaboradores de “falta de accountability”, porque además de mostrar poca capacidad de ajustar un modelo a una nueva realidad, muestran limitantes para poder explicar lo que hicieron y eso puede ser un peligro para la organización.

Comentarios finales

Recuerda que, como lo establecimos antes, “No necesitas un doctorado para aprender de data science, pero tampoco se aprende en una clase de 2 horas”. Los impostores de datos y análisis requieren precauciones y es importante continuar elevando el rigor de la materia. Te recomendamos buscar elevar los estándares en tu organización siguiendo estos consejos y leyendo alguna de las columnas que citamos

Equipo Datlas

– Keep it weird-

Fuentes y referencias originales

– Science of Fake. Fuente: https://www.lazerlab.net/publication/%E2%80%9C-science-fake-news%E2%80%9D

– How to spot a charlatan. Fuente: https://towardsdatascience.com/how-to-spot-a-data-charlatan-85785c991433