¿Qué es la Ciencia de Datos (Data Science)? Según Google – MANUALES DATLAS

Durante varios blogs Datlas y podcast de Café de Datos hemos hablado de casos de éxito/fracaso en ciencia de datos. La realidad es que el entendimiento durante el tiempo de este campo de la ciencia se ha ido diversificando. A menudo pensamos que forzosamente tiene que estar vinculado a determinada herramienta, qué tiene que ser desarrollado por ciertos perfiles y/o que sólo aplica si impacta de gran medida a la organización. Google Cloud en sus recursos de de aprendizaje comparten una guía de 6 pasos a seguir para la ejecución de proyectos de «Ciencia de Datos».

** También te puede interesar «Dimensionando la Industria de Inteligencia Artificial»

Como aviso previo, estos pasos están relacionados a procesos de análisis facilitados por un área de ciencia de datos. No tanto por un área de inteligencia de negocios. Para mayor claridad puedes conocer los distintos roles que hay en un equipo de ciencia de datos o algunas de las aristas para formar un buen equipo de datos.

I) Ingeniería de Datos

Es un momento clave en donde a la luz de un problema de negocios se extraen datos, se ingesta a un sistema de variables, se generan catálogos y a través de un procesamiento estos se vuelven información de valor. Con experiencia Datlas, agregamos una etapa de desarrollo de «Glosario de Datos» como parte de documentación y control de actualización de variables.

I.1 Ingestión de Datos y Descubrimiento

I.2 Preprocesamiento de datos

I.3 Almacenamiento de Datos

I.4 Glosario de Datos

II) Análisis de Datos

Desde análisis descriptivo hasta visualización de datos la parte de análisis integra distintos procesos estadísticos para generar hallazgos. Es altamente iterativo y caemos muchas veces en experimentación. Estas exploraciones apoyan a realizar las preguntas correcta sobre los datos que estamos evaluando. Resalta la sección, al final, de planificar la comunicación de los hallazgos.

II.1 Exploración de Datos

II.2 Pre-procesamiento

II.3 Insights de Datos

II.4 Comunicarlos

III) Desarrollo de Modelo

A través de los hallazgos de la etapa previa, se podrá seleccionar el mejor modelo de Machine Learning para detonar el aprovechamiento del histórico de datos así como la infraestructura usada para resolver problemas de análisis.

III.1 Simplificación de datos (Feature Engineering)

III.2 Entrenamiento de modelos

III.3 Evaluación de modelos

IV) Ingeniería de Machine Learning

Habilitar el servicio en línea para que otros usuarios puedan consumir los modelos. Asimismo monitorear que la estabilidad y los resultados del modelo hagan sentido durante su uso.

IV.1 Modelo de servicio

IV.2 Desarrollo de implementación de modelo

IV.3 Monitoreo de Modelo

V) Activación de descubrimientos

A través de entender los «journeys» de os usuarios de nuestros análisis y entender qué decisiones son ajustadas gracias a los análisis que desarrollamos seleccionaremos el mejor método de «delivery». Podemos hablar de dashboards, reportes u otro tipo de modelos vía API.

V.1 Seguimiento a influencia de decisiones

V.2 Identificar si el cliente final ha cambiado su comportamiento

V.3 Interconectar a otros servicios en la organización

VI) Orquestación y Mantenimiento

Mantenimiento con información actualizada del servicio. Usos replicables entre usuarios y experimentos.

VI.1 Escalamiento

VI.2 Carreteras únicas y APIs

** También te puede interesar «Metodologías para ciencia de datos»

Comentarios Datlas

Adicionalmente, a estos pasos que en su mayoría tienen base técnica. En seguimiento a los procesos de negocios y para que nuestros modelos de ciencia de datos tengan impacto en la organización para la que lo construímos es necesario diagnósticar y comunicar. En un inicio, entender bien el problema de negocio o la hipótesis que estamos validando. Así como, de manera iterativa, en cada paso del proceso identificar la audiencia a la que vale la pena comunicar. A veces sucede que estamos experimentando y queremos llegar a la dirección para influir su toma de decisiones. En realidad, hay que reconocer que a ciertos foros sólo les interesarán los resultados y a otros el método ¿Sabes cuál es cual en tu organización?

Suscríbete a Datlas Academy Gratuitamente.

Equipo Datlas

Keep it weird

Fuentes:

– Feature Engineering: https://www.kdnuggets.com/2018/12/feature-engineering-explained.html

– Data Science 6 steps with Google: https://youtu.be/EQvLUMjz-g4

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.