Archivo de la etiqueta: Ciencia de datos

¿Por qué pueden fracasar los proyectos de Ciencia de datos?

Según estadísticas de Kaggle, entre el 70 y 85% de los proyectos de ciencia de datos fallan en alguna rubrica a la hora de ser implementados. En esta columna dedicaremos un espacio para analizar sobre las principales razones de fracaso en proyectos de analíticas. Esto lo haremos utilizando una encuesta a más de 16,000 participantes de la industria de “data science”.

Como preámbulo, es justo entender en esta lectura porqué estos proyectos nacen de manera inherente con problemas de dimensionamientos en tiempo, recursos y esfuerzos.  Como cualquier iniciativa de tecnologías, los proyectos de información son complejos. Entre más grande la organización más difícil se vuelve integrar una visión estratégica a problemas de datos. Aún en compañías pequeñas y medianas nos vamos a enfrentar al retador mundo de la estadística y cómo usar técnicas matemáticas adecuadas para sacarle valor a los datos de mi negocio. Esto sin mencionar que en cualquiera de los casos hay que hacer una venta interna sobre lo que probablemente será una “caja negra” . Todo esto se traduce en resistencias internas en la organización, plantear proyectos sobre fundamentos que no se conocen al 100% , entre otros.

También puedes leer: “No se aprende “Big Data” en un curso de 2 horas, pero tampoco requieres un doctorado” .Datlas_barra_suscribir

Con este importante contexto , vamos a tener la óptica de que en proyectos de analítica de datos es muy probable que nos enfrentes a algunos de estos obstáculos (mencionados como respuestas de la encuesta).

El pase de diapositivas requiere JavaScript.

Problemas de Colaboración-Organización

En una compañía , este tipo de proyectos involucra a 3 áreas: negocios, TI y analítica (si existe el área, en su defecto sería TI o similar). Las encuestas muestran que existe principalmente faltas de comunicación.  Esto principalmente viene de que cada área tiene sus especialistas, a los que les gusta hablar su propio lenguaje. También que no necesariamente se le informa al negocio la manera en que se está resolviendo el problema.

Datos

En general las compañías y organizaciones tienen datos gracias a los sistemas que han implementado durante la última década. El problema es que esta información no está lista para consumir. Al menos el 30% de los que respondieron la encuesta identificaron la falta de datos como un reto. Lo más común es que el proyecto se estime sin considerar los tiempos reservados a la limpieza e integración de datos con los que se va a trabajar.

Talento

Los especialistas en datos están muy demandados y dentro de las organizaciones han optado por capacitar a su personal interno para resolver estos retos de analítica. Sin embargo, esto ha traído consigo falta de método y de respuestas precisas a los retos de negocio. En la encuesta mencionan el 42% de los retos son asignados a la obtención de talento. También puedes leer “5 perfiles para una estrategia de datos en tu organización”.  La necesidad de desarrollar  e incorporar equipos con experiencia en el área de analítica que puedan planear proyectos con mayor probabilidad de éxito cuidando los temas de fracaso común como los mencionados en la encuesta.

Herramientas y Presupuesto

Resolver nuevos retos de big data algunas veces requiere de nueva infraestructura.  Entre mayor sea la cantidad de datos y las áreas de la compañía a atender se van a requerir herramientas más sofisticadas y presupuestos.  Algunas de ellas las mencionamos en nuestro “Data Playbook”. Pero como aclaramos en la charla del INCMTY 2019,  las tecnología es relevante pero no es lo más importante. El presupuesto primeramente debe ir dirigido a la cultura y personas que estarán revisando los temas, más que a la tecnología. Al final las personas indicadas harán el mejor uso de los recursos que se le asignen a los proyectos.

3_Datlas_Piramide_Porquefracasan_proyectosdeDatos

Cierre

Termina la columna de hoy con la recomendación que la “planeación de escenarios” nos puede ser de utilidad en proyectos de big data. Esto significa que si ya sabemos las posibilidades de enfrentarnos a estos retos deberíamos de prepararnos dando por hecho que estos obstáculos que hemos nombrado aparecerán en el curso del proyecto. Siendo así podríamos generar nuestro propio “checklist” para verificar que contamos con todo lo necesario para echar a andar alguna iniciativa de datos y sobre todo los compromisos de negocio que vienen acompañados de las mismas.

Datlas_barra_suscribir

Esperamos te haya gustado la columna y comparte tus comentarios así como precauciones que tomas en proyectos de datos. Te invitamos además a participar en nuestra lista de prelanzamiento para el “Data Playbook Vol II”.

Equipo Datlas

Keep it weird

 

¿Cómo aprender Ciencia de datos? 6 lecciones prácticas tras años de intentos – Datlas TIPS –

Durante los últimos años hemos encontrado una explosión de fuentes de aprendizaje en lo relacionado a temas de ciencia de datos. Estos van desde técnicas de autoestudio, ser sombra de científicos, lecturas especializadas, cursos presenciales, cursos en línea, etc.

De todos estos medios compartiremos en esta columna 6 reflexiones importantes que te serán de utilidad si piensas aprender o estás aprendiendo técnicas de ciencia de datos.

Datlas_barra_suscribir

También puedes leer.

Datlas_Learned_youngone

1) El objetivo de aprender lo tiene el estudiante. Dejamos claro que el maestro no tiene obligación de que aprendas, más bien el estudiante es quien tiene como meta aprender

  • Establecer metas claras en una línea de tiempo: Ser principiante en al menos un lenguaje de programación en menos de 6 meses
  • Cualquier maestro que encuentres (amigos, maestros formales, libros, cursos en línea, etc.) Puede que sea una figura con alto “expertise”, pero es tu trabajo sacarle el mayor provecho

Datlas_datascience_everywhere

2) Se les aconseja a los estudiantes rodearse de todo lo que huela, se vea y se sienta como “Data Science”

  • Entrar a comunidades locales de Datos. Desde grupos de Facebook, los eventos , conferencias más enfocados al tema que tengas cerca, colegas de aprendizaje y finalmente cambia tu lectura a libros de estos temas
  • También busca aportar a la comunidad de regreso lo más pronto posible

Datlas_dominios

3) Apalanca tu aprendizaje iniciando con un campo de dominio donde tengas experiencia laboral

  • Usa tu experiencia laboral, específicamente los datos a los que has estado expuest@ con más frecuencia para que sea un menor reto descifrar la información que vas a analizar
  • También es recomendable mapear 2 ó 3 sectores nuevos de los que quieres aprender y enfocar tus estudios a esas áreas específicas de datos

Datlas_failfast_learnfaster

4) Vas a cometer errores, así que haz que sean rápidos. Recuerda que se aprende más de tus propios errores y no los de los demás

  • Ponte aprueba buscando bases de datos por tu cuenta y generando análisis sin ningún tipo de guía más que tú propia ideación. Sólo ten en cuenta la utilidad de los casos de estudio que estés revisando
  • Ponte en los zapatos del usuario final o de un cliente que quisiera usar esos datos como ventaja para su negocio. Haz el recorrido completo de un analista de datos para transformar datos en accionables

Datlas_nerdreading

5) Aprende a leer documentación técnica y a encontrar información

  • Ciencia de datos tiene como fundamentos la estadística y programación, sin embargo estos son solo los primeros pasos ya que durante el camino habrá que leer mucho para aprender de librerías y métodos que necesitemos aplicar a nuestros análisis
  • Consulta cuáles son las paqueterías o librerías más utilizadas en el lenguaje de programación que estás aprendiendo. Personalmente recomiendo seguir en twitter a otros científicos de datos que publiquen algunos de sus análisis

Datlas_motivation

6) Sé paciente, positivo y busca fuentes de motivación, las necesitarás

  • Ten paciencia, no te frustres. Un buen aprendizaje toma tiempo, a veces avanzamos demasiado rápido y porque tenemos que refrescar la estadística nos frenamos un poco. O bien nos entretenemos mucho en descubrir cómo funciona un nuevo algoritmo cuando con una regresión básica hubieramos solucionado el reto. Hay que ir midiendo qué métodos de aprendizaje nos funcionan mejor
  • También recomiendo seguir en linkedin a personalidades que ya sean científicos de datos de grandes empresas que constantemente publican consejos y guías de aprendizaje para mantenerse más motivado

Datlas_barra_suscribir

Hasta aqui la columna de hoy, recuerda que en este blog contamos con distintos casos de investigación que pueden animarte a investigar. También concluimos con un vínculo a nuestras publicaciones que hemos hecho en conferencias de datos. Esperemos que haya muchos entusiastas de los datos, coméntanos en nuestra redes en Facebook , Twitter e Instagram.

 

 

 

Keep it weird

Equipo Datlas

Excel simple para Analytics de Salud – Datlas Tips

¿Qué tal? la semana pasada estuvimos en la Business Week de la Universidad de Monterrey. Les ofrecimos un taller de parte del equipo de analytics de Datlas en relación a temas de la Salud en México ( al final del blog viene el link a la presentación).

free_Suscriber.png

Ya hemos hablado de estos temas en el blog, pero quisimos dejar más consejos para aplicar el conocimiento de análisis a temas que podrían mejorar políticas en el país. Sobretodo ofrecerles sencillos métodos para explotar fuentes de datos públicos y e idear nuevas propuestas. En esta columna les contamos todo desde algunos TIPS y consejos: de EXCEL, bases de DATOS de salud y algunas metodologías que ofrecimos en el taller.

BSF_2017.png

Excel es una maravilla si sabemos usarla, sino puede ser un dolor de cabeza.

A grandes rasgos, MS Excel que viene en casi un 98% de las computadoras de hoy en día, es un software donde podemos leer información en tablas para su análisis de formatos .xls y .xlsx . Sin duda muchísima gente lo usa hoy para:

  • Manejar presupuestos o contabilidad familiar/profesional
  • Resolver problemas matemáticos
  • Graficar datos a traves del tiempo
  • Almacenar mucha información para explotar con tablas dinámicas (estadística básica de conteos, suma, entre otros)

Lo más importante es que conociendo el software de manera muy básica uno puede llegar a una “analítica avanzada” si tiene claro una pregunta y sabe cómo utilizar las fórmulas correctas. Para analytics de Salud, donde tenemos datos de tipo corte transversal (una foto en un momento del tiempo), usualmente tenemos mejor comprensión de los datos con las siguientes fórmulas:

  • Contar; Sumar; Restar
  • Buscarv (para cruces de información)
  • Si (condicionantes)
  • Cuartiles, máximos, mínimos, media, mediana, entre otras
  • Entenderle a los filtros de las tablas tradicionales de excel

Por otro lado, para series de tiempo (varias fotos a lo largo del tiempo), recomendamos otras fórmulas o métodos:

  • Contar.Si; Sumar.Si; restar.si
  • Buscarv en combinación con condicionantes de si
  • Generar una tabla dinámica y hacer conteos por mes, semana o hasta día si se cuenta con los datos

Ya dejando atrás la teoría de Excel y para arrancar con los analytics de salud en México tenemos que comenzar conociendo las bases de datos. Para el taller propusimos 3 bases que puedes encontrar en: (http://bit.do/BD_Datlas)

 

El pase de diapositivas requiere JavaScript.

Después de abrir y validar que el contenido de las bases de datos sea el que se describen en las imágenes pasadas no queda nada más que ponernos creativos y comenzar a analizar.

En nuestro caso nos pusimos a analizar la información del SINAC- Actas de nacimiento y algunas de las conclusiones de lo que se pudiera promover con estos datos son:

• Priorizar atención a madres en situaciones vulnerables
(Edad, Nivel de estudios, Oficio, Estado Civil)
• Detección oportunidad de patrones de enfermedades en recién nacidos
(Anomalías, Enfermedades al nacer, dimensiones del bebé)
• Proyectar uso de vacunas por tipo de clínica
(Vacunas aplicadas, Localidad de nacimiento, Edad promedio de madre)
• Analizar demanda de enfermeras / doctores por tipo de embarazo
(Consultas médicas previas al parto, tipo de parto, tipo de clínica)

 

Te queremos invitar a explorar más casos de uso. Adelante hemos facilitado unas bases de datos para que puedas explorar y aqui abajo te compartimos el taller completo de analytics que te ayudará a acotar de mejor manera un problema a resolver.

 

Mucha éxito en tus análisis, si te gustó dale compartir y ayúdanos a promover esta cultura para promover más propuestas basadas en datos.

 

Saludos y no olvides suscribirte a Datlas para un Demo en http://www.datlas.mx

free_Suscriber.png

Keep it weird

@Thedatlas