4 Metodologías para proyectos de Data Science – INVESTIGACIÓN DATLAS

Datlas_quote1_Method

Métodos, métodos y  más métodos. Aunque parecer que en el largo plazo limitan nuestra imaginación son herramientas que facilitan la entrada, práctica y control en un campo de dominio que queremos alcanzar. Desde Datlas, nuestra startup de analytics, hemos trabajado con «métodos de data science» en nuestros proyectos internos, aún sin tener usuarios. Ahora que los tenemos les puedo confirmar que el método es uno de los recursos más importante para establecer claridad en la comunicación y avances de los proyectos. En esta columna expondremos 3 de los métodos más usados en proyectos de ciencia de datos. Al final también integraremos nuestra propia versión de método de trabajo.

** Si quieres aprender más de analítica, datos y transformación digital inicia de manera gratuita con 3 cursos que ofrecemos en www.datlasacademy.com

Datlas_Blog_Promo_SuscriberFree

1) KDD (Knowledge Discovery in Databases)

Datlas_KDD

Metodología de 5 pasos. Inicia con la selección donde de un data set principal hay que selecciónar un subconjunto de variables que nos pueden apoyar en la exploración del fenómeno que estamos estudianto. En el pre-procesamiento realizamos la limpieza y balanceo de datos. En la transformación, el método sugiere que reduzcamos dimensiones con técnicas estadísticas para manejar la menor cantidad de variables necesarias. En minería de datos buscamos patrones de interés o representativos en relación al objetivo de la minería de datos. Finalmente para colarnos al conocimiento pasamos por el proceso de intepretación y evaluación de modelo.  Al final de la iteración se le otorga una calificación al modelo y si no se cumplieron satisfactoriamente los objetivos se repite hasta que sean logrados.

Datlas_Promo_Facebook_Suscribe

2) SEMMA (Sample, Explore, Modify, Model and Access)

Datlas_SEMMA

En esta metodología iniciamos con «sample» o un muestro de la base de datos principal (que asumimos que es muy pesada y lenta de procesar) para poder hacer manipulaciones sobre este pequeño set de una manera ágil. Después exploramos los datos para ganar entendimiento e ideas, así como refinir nuestro proceso de búsqueda de anomalías, patrones y tendencias. Llegamos entonces al paso de modificar donde nos enfocamos en crear, seleccionar y transformar variables para enfocarnos en un proceso de selección. En esta etapa también se buscan anomalías y reducir el número de variables. Luego sigue la etapa de modelaje en donde debemos aplicar distintos métodos estadísticos evaluando sus fortalezas y cumplimiento de objetivos. Finalmente la etapa de «access» que significa evaluar la confiabilidad y utilidad de los hallazgos. Se evalúa particularmente el «performance».

De la misma manera del modelo anterior, si no se logran los objetivos en una primera iteración tendremos que repetir el proceso.

3) CRIPS-DM (Cross-Industry Standard Process for Data Mining)

Datlas_CRISPDM

Seguimos con el «famosisimo» CRIPS-DM, el método más usado en la industria y es que IBM, la compañía dueña de Watson que antes desarrollaba poderosas computadoras, es quien desarrolló este modelo. La diferencia clave es que cualquier etapa del modele puede tener retorno o iniciar una reversa al método. Si durante la etapa en particular el especialista encontró que los datos no son suficientes para resolver su objetivo, puede regresar a cualquiera de la otras etapas.

En la etapa de «Entendimiento de negocio» primero se determinan los objetivos de negocio: Antecedentes, objetivos estratégicos de impacto y criterios de éxito. Después revisamos la situación, inventariamos recursos, realizamos un análisis de costo-beneficio, determinamos objetivos y producimos un plan de proyecto.

En «Data Understanding» es donde recolectamos los datos iniciales, describimos cada uno de estos datos, exploramos y verificamos la calidad de la información.

En «Data preparation» seleccionamos la información más razonable, la limpiamos, construimos variables de ser necesario, integramos datos y finalmente formateamos. El entregable de esta etapa sería un dataset listo para trabajar.

Para la etapa de «Modeling», similar a los otros modelos, experimentamos con distintas técnicas, consideramos supuestos, hacemos pruebas, definimos parámetros y revisamos funcionalidad general de los modelos.

En «Evaluación» es donde considerando los criterios de éxito definidos consideramos como positiva y/o negativa la evaluación. Aqui mismo definimos los siguientes pasos y tomamos las decisiones necesarias.

Finalmente en «Deployment», esta etapa sólo se activa si el proyecto tuvo evaluación positiva. Se genera entonces un plan de desarrollo, un plan de mantenimiento, se genera un reporte final y presentación para socializar el caso de estudio.

Comparando métodos

Datlas_comparando_metodos_DS_

A manera personal pienso que el CRIPS-DM se lleva de calle los métodos de antes. Por algo es más usado el CRIPS-DM y principalmente porque mezcló la necesidad de entendimiento del negocio con la parte científica del desarrollo de análisis de datos.

*Si quieres aprender más de arquitectura y proyectos de datos revisa este blog (Data Lake Vs. Data Warehouse Vs. Data Mart) 

4 ¿Cómo lo trabajamos en Datlas?

Datlas_metodo_laboratoriodedatos

Nuestro método, titulado «Laboratorio de Datos», es similar a los modelos revisados con anterioridad. Tras un entendimiento central de negocio (En donde se ubica la imagen de nuestro mapa en el diagrama superior) entendemos las necesidades del negocio, dimensionamos el proyecto y seleccionamos los métodos experimentales. Ese entendimiento no necesariamente te tiene que llevar a la extracción de datos, ya que puede haber un avance previo. Sobre todo nosotros que trabajamos con datos de clientes, en muchas de las ocasiones llegamos a integrar o clasificar.

Datlas_Promo_Youtube_Suscribe

Asumiendo que sea un proyecto tradicional, iniciamos en la etapa de extracción donde dimensionamos y entendemos el tipo de variables con las que vamos a trabajar. En nuestro caso generamos un glosario de variables- Para la integración y clasificación buscamos ir preparando un ambiente de trabajo que nos permita geo-referenciar y mapear variables. Si estos 3 pasos iniciales cuentan con una evaluación positiva podemos pasar a la etapa de visualizar o reportar.  Cuyo objetivo principal es generar los principales recursos para socializar y pedir retroalimentación a los usuarios potenciales. Tras realizar los ajustes necesarios podremos llegar a entrenar un modelo con técnicas de inteligencia artificial.  Los pasos en el método son iterativos y se puede regresar a cualquier paso una vez que el entendimiento central del negocio se va enriqueciendo con cada etapa del proceso.

Para más detalle de este método puedes solicitar una conferencia o sesión de capacitación en direccion@datlas.mx

**También te puede interesar: ¿Cómo aprender ciencia de datos? 6 pasos

Datlas_quote2_Method

Hasta aqui la columna de hoy.  ¿Cuál es tu método y como darle libertad a la creatividad en el proceso? ¿Cuál seleccionarás para tu siguiente proyecto?  Comparte con tus colegas y comenta qué crees que podría mejorar los métodos de ciencia de datos.

Datlas_Promo_Podcast_Suscribe

Equipo Datlas MX

-Keep it weird-

Microsoft Vs. Apple – De las primeras batallas en Startups -DATLAS: Columnas de opinión

Datlas_Blog_Promo_SuscriberFree

Este post va de la mano con la entrevista más famosa entre Bill Gates y Steve Jobs de 2007 donde hablan del pasado en las empresas y el futuro que percibían en ese momento para los sigueintes 5 años de la industria.

Y a continuación se mostrarán algunos headlights de la historia de rivalidad más grandes entre compañías que una vez fueron las startups más disruptivas de nuestros tiempos.

¿Por qué son/fueron una startup?

Startup es una compañía en fase de desarrollo con enorme escabilidad dentro del mercado. Estas compañías siempre estuvieron rodeado de ese entorno, pero dejaron de ser unas startups (al término que nos referimos hoy) cuando sus invenciones y proyectos dejaron de perpetuarse de forma personal y pasaron a una existencia semi-permanente.

Headline de la conferencia Bill Gates y Steve Jobs 2007 para Fortune

Bill- Construyó la primera compañía de software

Steve – Enfocado en la industria de hardware  computadora personal

Ambos: Mucha suerte atrayendo enormes talentos

1976 Apple: Quería una computadora donde pudieras escribirtu programas. Wozniak escribió el Basic. Era perfecto en todo, pero no era un punto flotante.

1977 Micrososft, lanzaron Basic en 75

– En apple II había software de Micrososft

– Basic Micrososft por Bill Vs. Basic Apple por Wozniak. Ventaja de MS es que tenían un punto flotante

– Microsoft le apostó mucho a la MAC para entrar en el mercado de las aplicaciones

– Windows 95 con interfaces gráficas se volvió un salto enorme para el software y las aplicaciones

– Apple no creció queriendo ganarle a microsoft, quería ser diferente que microsoft

– La relación entre apple y microsoft es una de las mejores que pueden tener entre desarrolladores

– Apple creó el mercado de reproductores móviles (Zune vs. Ipod)

– Apple se ve como una compañía de software. Ya no quedan muchas compañías de software. Mac no va a tomar el 80% de mercado de la pc.

– Microsoft está preparando software para desarrollo de robots y en un futuro competir. Busca integrar el software con el hardware como lo hace Apple en perfección

– Diferencias entre el mercado empresarial y el mercado de consumo es básicamente lo que diferencia una PC de una MAC

¿Cömo miran a la competencia y a la gente que quiere construir compañías de internet?

S: Es lo más sano que hayan encontrado. Quieren construir compañías que duren, no sólo para venderlas. Quieren hacer algo para que dure.

B: Un periodo saludable. Creación de nuevas interfaces, importancia de la nube y que el internet se haga parte de las tareas en la experiencia trae mucha invención que hace antiguas a las compañías que ya existían.

Voltearemos a ver este período como uno de las grandes etapas de invención.

Datlas_Promo_Facebook_Suscribe

Más headlights

– Al migrar a la nube ya no tienes que invertir tanto en el hardware

– El secreto es combinar las posibilidades de hoy con la información en la nube. La nube lo va a hacer más fuete

–  Ejemplo: Mejoramos googlemaps y lo que google tenía usando la misma información que había disponible cambiaron extremademente la usabilidad con una app. No puedes hacer eso en un «explorador».

– Steve: Hay una explosión en lo que se llama «Post-Pc»: Ipods, etc. Una variedad de productos más enfocados en propósitos específicos y eso va a ser muy innovación.

¿Cuál será la usabilidad base de los dispositivos portátiles?

B: EL gps, teléfnoo, cámaras, «digital wallet»… pero eventualmente vas a tener algo que haga todas esas cosas

Editar una tarea, una película, lectura, etc.

«Si tuvieramos una pantalla que se desenrolla podríamos tener un aparato que lo tuviera todo» (2014 Samsung lanza su pantalla enrollable)

– Buscar que la tecnología haga algo por otra causas, por ejemplo ahora estamos viendo que finalmente está haciendo algo por la educación

Aprendizajes y comentarios a compartir

* Forma un equipo genial desde el inicio. Como consejo aparte reparte bien la propiedad desde un inicio. Haganlo de la mejor forma y no tengan miedos de ser invasivos, en el futuro les traerá armonía

*El futuro y las posibilidades de desarrollo de nuevos mercados ahora está en usar la información que ya tenemos, pero de una forma más ágil, más bella y accesible para todos

*El éxito es diferente que la felicidad. En toda la entrevista podemos ver como ellos disfrutan de cada historia que cuentan. Imagínate volteando atrás en 10 o 20 años. ¿Serías como ellos?

Datlas_Promo_Youtube_Suscribe

Saludos y espero que les haya gustado.

No olviden unirse a nuestro grupo de facebook:

https://www.facebook.com/datlasmx/

 

Linkedin: Pedro Vallejo Castillo

MI6- De intelectuales en Stanford hasta creativos en Google… esto es Silicon Valley -DATLAS: Emprendedores

Datlas_Blog_Promo_SuscriberFree

Este día ya todos nos llevamos mucho mejor, ya habíamos formado hasta nuestros equipos en cada camioneta. Uno podía tomar la opción de ir en la camioneta con la música a todo volumen, la de los bailadores y la fiesta o tomar una oportunidad intelectual de disfrutar las pláticas de Jorge Agraz el mejor compañero de carretera por que siempre tendrá una extraña historia en algún lugar raro del mundo que contarte.

Jpeg

IMG_20140803_091005

El día miércoles participamos en una conferencia del abogado Servando Sandoval. El es el experto con el que debes hablar en cuanto a temas de startups en Silicon Valley. Y si el no lo es, bueno te lo consigue. Nos dio consejos muy buenos sobre los tradicionales problemas legales en el valle del silicio y nos respondió de muy buena manera todas nuestras preguntas.

Jpeg

Estuvimos también en contacto con uno de los favoritos, el CEO y fundador de 3DMX Jorge Villalobos que fue el único que nos hablo con sinceridad sobre el cambio en orientación a su espíritu emprendedor. Como se dio cuenta que lo mejor era irse de innovar en la animación a innovar en la educación del diseño.

Datlas_Promo_Facebook_Suscribe

Nos explico la importancia de un buen «board members» y cómo a partir de la gente es como logras despegar tu negocio.

Jpeg
Sí, mi dedo sale cubriendo el lente

Bueno y ahora sí la estrella del día.. ( y eso que vimos a muchas) al Dr. Hector García Molina professor de la univrsidad de Stanford en el área de informática. Uno de los expositores más símpaticos, con el que me sentí más identificado y a quien conté con el honor de darle unas palabras a nombre del grupo y entregarle su reconocimiento por habernos asistido.

10616658_10152690502066803_7039705540851280088_n

Les podría contar en renglones y renglones de este blog por que quedamos tan impresionados con este personaje, pero mejor les enseño el video que preparé para compartir esta experiencia.

Luego fuimos a comer en Stanford y contamos con la empresa de Sanimna y Tesla. A mi me llamó mucho la atención ir a visitar Tesla, la mayoría estaba muy emocionado por conocerlo yo la verdad había escuchado poco de ellos, pero bueno para eso fuimos a conocer

Jpeg

Jpeg

Jpeg

Jpeg

Me gustó bastante la experiencia y más que nada el ejemplo de poner sobre ruedas una visión de mover a las personas con otro tipo de energías. Por fin algo bien planeado y cimentado una red de electricidad que recorre la mitad de Estados Unidos para una nueva etapa de la transportación.

Datlas_Promo_Youtube_Suscribe

Cierro este post con la experiencia del Google workshop y claro que sí más fotos!!!

En este taller pusimos a prueba nuestra creatividad y tuvimos un ejercicio de diseño de ideas al estilo Google. Llegamos a la oficina en San Francisco, muy cerca del nuevo campus de Wharton… y primero que nada comimos todo lo que pudimos. Luego participamos en el taller donde nos pedían diseñar una solución en app móvil para solucionar problemas de viajeros. Me gustó mucho el ejercicio, en mi mesa estaba gente de Sacramento y un Colombiano con el que compartimos experiencias y al final presentamos nuestra idea frente a todos y obtuvimos buena retroalimentación.

Jpeg

Jpeg

Jpeg

Jpeg

Al final bueno una historia muy graciosa, todos se regresaron y 5 del grupo nos decidimos quedar a disfrutar de la hermosa noche en San Francisco. Saliendo de las oficinas de google nos encontramos con uno de sus empleados que fue nuestro «travelbuddy» durante esa noche y nos llevo a un restaurante muy bueno con un barco dentro. Una persona muy amable y gracias a él llegamos a tiempo a nuestro tren.

Jpeg

Jpeg

Jpeg

 

Linkedin: Pedro Vallejo Castillo

 

D3 – Empezando actividades: Rally con los “Silicones” -DATLAS: Emprendedores

Datlas_Blog_Promo_SuscriberFree

Jpeg

Empezamos el primer día con unos paseos en Silicon Valley y una especie de rally donde el reto era conocer parte de la ciudad. Realmente antes del rally ya nos habíamos aventado nuestras vueltas, estabamos muy bien ubicados a un lado de las oficinas de ADOBE, que por lo que nos enteramos tiene un reto de descifrar un código que proyectan todas las noches en sus oficinas. Interesante, pero nadie lo intentó descifrar.

En esta parte de nuestro paseo vimos importantes bancos, estadios, museos y lugares para salir donde percibimos un poco el encanto que tiene la ciudad de San Jose, CA… que hospeda Silicon Valley

Datlas_Promo_Youtube_Suscribe

Me gustó mucho el encanto de la ciudad, en esos momentos ya estabamos muy ansiosos por entrar a los edificios, no sólo verlos por fuera pero como era domingo nadie nos dejaba pasar. También estaba muy cansado, el «jetlag» de Bélgica y cansancio por haber estado viajando tanto se venía acumulando.

Me animó mucho el grupo que tuvimos, nos llevamos muy bien y todos viviamos en el mismo piso de las residencias entonces nunca estuve sólo… como consejo… buenos compañeros de viaje siempre mejoran tu experiencia

Jpeg Jpeg