Archivo de la etiqueta: analitica de datos

¿Cómo identificar un impostor de datos? – datlas emprendedores

Ya conoces de nuestras otras columnas que hemos hablado que además de los científicos de datos hay muchos otros roles en el campo de la analítica avanzada de datos. Puedes leerlo en “Los 5 perfiles en una estrategias de datos”. Quienes no redujeron presupuestos en pandemia han creado nuevos departamentos de analítica avanzada. Esto aplica para compañías de todo tipo de tamaño. Por lo mismo, la demanda de capital intelectual de ciencia de datos se ha incrementado y la oferta es insuficiente. Por esta razón, existen situaciones en las que personas con poca o insuficiente formación en el campo atienden proyectos de analítica. La falta de respaldo en el campo se empieza a traducir en altas rotaciones, pérdida de fe en retornos de inversión para proyectos de ciencia de datos y/o reducción de presupuestos. En esta columna compartiremos algunos consejos de cómo detectar a “impostores de datos” con algunas revisiones puntuales al momento de entrevistar personas.

1) Los charlatanes de datos se esconden en todo tipo de equipos y áreas. Se rodean de gente capaz, pero se camuflajean entre la estadística y los análisis de negocio

Es útil entender que analítica y estadística son dos tipos de campos de dominio distintos. En estadística se aprende a entender el valor más allá de los datos, sintetizando un entendimiento global de variables a partir de tendencia central, identificando problemas en una serie de tiempo, excepciones en variables categóricas y más que nada encontrando significancias. Un analista, por otro lado, está preparado para entender y dimensionar una base de datos con mayor conocimiento del campo de dominio del negocio. Generar a partir de relaciones conclusiones y mensajes de oportunidad para una empresa.

En la práctica, los roles de de ciencia de datos requiere la función híbrida. Un analista se quedaría corto si no conoce suficiente de estadística para validar pruebas de hipótesis. Y un conocedor de estadística requiere una visión global al momento de enfrentarse a un problema de datos. Cuidado de caer en la falacia de que estas funciones “duermen” por separado.

Te puede interesar leer “Por qué fracasan los proyectos de datos”

2) El arte de manejar la incertidumbre, los “outliers” (anomalías) y faltantes

Un buen analista es similar a un doctor al momento de iniciar un nuevo paciente. Lo primero es generar un diagnóstico, no importa cuántas personas hayan diagnosticado antes las bases de datos a trabajar, hay que realizarse una serie de preguntas sobre el problema de datos que se va a enfrentar. Alejarse de este diagnóstico es quedar fuera de un verdadero proyecto de ciencia de datos.

De hecho, puedes leer “Cómo construir un checklist para proyectos de analítica de datos”. Los impostores de datos muchas veces se enfocan más en entregar los resultados al jefe y olvidan la parte artesanal de curar los datos para tener la estructura de datos óptima para resolver un problema en especifico.

3) Más seducidos por el p-value significancia estadística que la significancia de los resultados para la estrategia del negocio

La obsesión por la técnica estadística no necesariamente está asociada a un buen desempeño como científico de datos. Tener talento académico y seguir los principios de estadística en un ejercicio de análisis de datos es importante. Pero debe haber una obsesión con generar resultados objetivos para el negocio.

Una vez que prioricemos ese objetivo, los verdaderos científicos de datos no se detendrán con su entendimiento estadístico. Querrán conocer e identificar el ADN del negocio.

4) El arte de generar variables para generar conclusiones que hagan sentido

Un analista serio no comenzará su análisis con las variables que le entregaste para trabajar. Buscará explorar y desarrollar nuevas variables. Por ejemplo, cuando trabajas con latitudes y longitudes y quieres trabajar algún modelo como una regresión. Los campos no pueden ser ingresados como tal. Debemos de generar un punto de referencia, como el centro de la ciudad, una escuela cercana, un hospital o algo similar. Para que nuestra conclusión de regresión pueda ser interpretada como “por cada cambio en X variable, existe un cambio en Y”. Es común en las pruebas aplicadas para científicos de datos poco preparados este tipo de carencias salgan a relucir.

Si quisieras saber algunos consejos de cómo deberías reclutar a tu equipo de analítica no te olvides leer “Diseño de perfiles y áreas de analítica en organizaciones”. o escuchar nuestro podcast “Café de Datos”.

5) Un charlatan de datos llega a conclusiones demasiado rápidas… a conveniencia

Un experimento de datos no se puede declarar exitoso si sólo se pone a prueba con una serie de datos. Un buen “Testing” es aquel que se experimenta en distintas condiciones, con datos que estuvieran vigentes en temporalidades distintas y , si es posible, estresado bajo modelos contrastantes.

Un charlatán de datos usará más de su tiempo en convencerte que el primer resultado fue el correcto o que su método es el único en lugar de buscar formas de contradecir el ejercicio inicial.

6) La culpa es del modelo que fue tonto, no mía

La última, tiene más que ver con una actitud, pero un impostor de datos hará responsable “al modelo”. Hará referencia a que es de “caja negra” y que no es posible explicar el impacto de cada variable al resultado. Mucho cuidado con estos colaboradores, porque además de mostrar poca capacidad de ajustar un modelo a una nueva realidad, muestran limitantes para poder explicar lo que hicieron y eso puede ser un peligro para la organización.

Comentarios finales

Recuerda que, como lo establecimos antes, “No necesitas un doctorado para aprender de data science, pero tampoco se aprende en una clase de 2 horas”. Los charlatanes de datos y análisis requieren precauciones y es importante continuar elevando el rigor de la materia. Te recomendamos buscar elevar los estándares en tu organización siguiendo estos consejos y leyendo alguna de las columnas que citamos

Equipo Datlas

– Keep it weird-

Fuentes

– Science of Fake. Fuente: https://www.lazerlab.net/publication/%E2%80%9C-science-fake-news%E2%80%9D

– How to spot a charlatan. Fuente: https://towardsdatascience.com/how-to-spot-a-data-charlatan-85785c991433

Aprendiendo de Ciencia de datos para líderes de equipo – manuales datlas

El mes pasado terminamos el curso de “Data Science for Managers”. Este curso tiene un alcance específico para gerentes que están liderando proyectos de analítica y transformación digital en organizaciones. En esta columna compartiremos 5 de los aprendizajes así como un podcast que grabamos alrededor de algunos conceptos de analítica y ciencia de datos que aprendimos.

Sobre los niveles de madurez en analítica para organizaciones

Cuando comienzas a hablar de ciencia de datos en organizaciones es muy importante darse un tiempo para la auto-evaluación. Entender cuál es el nivel de madurez de tu empresa o equipo te ayudará a seleccionar las estrategias adecuadas para ese nivel. En este caso el equipo que nos impartió las clases, Galvanize, nos recomendó este modelo de 5 niveles para medir el nivel de madurez de datos. Estos los identificamos y los discutimos en el podcast que te recomendamos escuchar.

Sobre los lenguajes de programación para ciencia de datos más usados en la industria

En la industria sigue existiendo una variedad cada vez más crecientes de lenguajes de programación con enfoque a paqueterías que habilitan la resolución de problemas de analítica de datos. En general, de software libre Python y R fueron los más mencionados. Por otro lado los que consideran uso de licencia, sería SAS, MATLAB o SPSS. La extracción de información con SQL también fue mencionada. Todos estos apuntes para posible agenda de desarrollo de científicos de datos.

Sobre el pensamiento sistémico en analítica con transformación digital

Lo que continuará pasando al futuro es una mayor integración de hardware especializado que genere y comparta datos. En un pensamiento de proyectos sistémicos no se trata de ciencia de datos o inteligencia artificial por su cuenta sino de un pensamiento sobre sistemas inteligentes.

Este tipo de pensamiento nos ayudará a pensar cuando se contrate un proveedor en una organización si la plataforma que ofrece ¿Se integra con sistemas IOT? ¿Estaría contemplado para complementar un sistema inteligente?

Sobre la priorización

Otro de los beneficios de este curso fue que se lleva con otros expertos de la industria que convoca el Monterrey Digital Hub. Cuando los facilitadores generaron la consulta de cómo se priorizan los datos en las compañías hoy en día estas fueron las respuestas.

La respuesta de 6 de cada 10 asistentes fue que la visión de los ejecutivos (directivos) es lo que dicta la prioridad. Otros miembros complementaron con alternativas de presupuesto, impacto a indicadores clave o asignación de recursos por parte de la organización. Conforme la industria y los proyectos de datos se califiquen con más rigor muy seguramente la prioridad se generará más orientado a KPIs u OKR .

Sobre cómo medir el valor de los proyectos

Otro de los puntos a capitalizar, de lo que esperamos se pueda incrementar la cultura en las organizaciones, es de cómo medir de manera continua el ROI (retorno sobre la inversión) de los proyectos de analítica.

En el curso nos explicaron algunos de los factores como considera talento, productos de datos y tecnología necesarios para calcular el ROI. Y de manera muy importante detectar a qué oportunidad de negocio estamos impactando: Nuevas oportunidades, optimizar o automatizar.

Hubo muchos aprendizajes más, pero quisimos destacar algunos aqui y otros más en nuestro episodio de podcast de analytics “Café de Datos” #Cafededatos.

Hasta aqui la columna de hoy si te gustó la columna te invitamos a recomendar así como SUSCRIBIRTE a nuestro PODCAST Café de datos

Saludos

Equipos Datlas

– Keep it weird-