Archivo de la etiqueta: microsoft azure

Algoritmos Supervisados: Clasificación vs. Regresión – Datlas Research

Existen 2 métodos populares para Machine Learning cuando de métodos supervisados hablamos.  Nos referimos a los algoritmos de clasificación y regresión. Fundamentalmente, es importante que los lectores conozcan que los de clasificación predicen una “etiqueta” y los de regresión predicen una cantidad. En esta columna explicaremos de qué tratan, sus diferencias y compartiremos algunos casos de uso frecuentes.

Datlas_ML_Supervised_NotSupervised

¿Qué es aprendizaje de máquina (Machine Learning)?

Es una disciplina científica del ámbito de la Inteligencia Artificial que crea sistemas que aprenden automáticamente. Aprender en este contexto quiere decir identificar patrones complejos en millones de datos. La máquina que realmente aprende es un algoritmo que revisa los datos y es capaz de predecir comportamientos futuros. Automáticamente, también en este contexto, implica que estos sistemas se mejoran de forma autónoma con el tiempo, sin intervención humana. Veamos cómo funciona. (Leer en bibliografía en fuentes).

¿Qué significa algoritmo?

Conjunto ordenado de operaciones sistemáticas que permite hacer un cálculo y hallar la solución de un tipo de problemas. O una serie de instrucciones sencillas que se llevan a cabo en cierto orden para resolver una pregunta.

Datlas_barra_suscribir

Recordemos que estamos hablando en esta columna de algoritmos de la familia de de ML supervisada (Necesita datos “etiquetados” para ser entrenada, en contraste con la no supervisada que a partir de una serie de datos genera clústers o asociaciones).

Algoritmos de Clasificación

Predicen etiquetas o clases que se conocen a priori. El resultado deseado es una etiqueta discreta o específica. En el caso del modelo entrenado sea entre 2 clases, se determina como binaria. Si tenemos que predecir más de 2 clases se le conoce como clasificación multicategórica.

Técnicas:

Ejemplos de casos de uso:

  • Segmentación para estrategias de marketing. Cómo poder diferenciar estrategias de promoción y precio para mis usuarios. Te puede interesar nuestro blog “Segmentar Clientes usando mapas”
  • Categorización de siniestros. Podríamos categorizar las zonas más siniestradas de una ciudad entrenando un modelo con la historia de datos. De esta manera se podrían generar mejores rutas de patrullaje por los policías. Te puede interesar: “Categorizando choques y siniestros en Nuevo León”.
  • Predecir el éxito. Para hoteles u hospedajes de AIRBNB podríamos predecir si van a tener éxito o no considerando las variables que comunican en sus anuncios. Revisa: “AIRBNB amenaza o bondad en CDMX”.

Datlas_barra_suscribir

Datlas_regression-vs-classification-in-machine-learning

Algoritmos de Regresión

Es útil para predecir productos continuos. La respuesta se presenta como cantidad. El valor predicho puede usarse para identificar la relación lineal entre atributos.

Técnicas:

Ejemplos:

  • Precios de vivienda. Estimar precios de inmuebles considerando variables como dimensión de propiedad, tamaño de construcción, pisos, recámaras y otras características. Te puede interesar nuestro blog “Desarrollando un valuador inmobiliario”
  • Predecir camas hospitalarias necesarias. Una oficina o secretaría de salud podría predecir con base a su histórico la cantidad de camas y doctores que serán necesarios el próximo año para atender a la demanda de la población. Un avance que pudieramos llevar allá es con la cantidad de mujeres embarazadas. Podrías leer nuestro blog sobre el tema.
  • Identificar las cervezas que necesitarás en tu inventario. Predecir la cantidad de inventarios es una de las aplicaciones más usadas en el sector retail. Podrías revisar nuestro blog ¿Cómo detectar cheves con Tensorflow?

Escenario para reforzar: NETFLIX

Un problema tomando en cuenta Netflix, proveedor de entretenimiento al que muchos de los lectores están suscritos. A cambio de una mensualidad pueden ver series y películas. Pero muy probablemente en su experiencia hayan recibido recomendaciones de los algoritmos de esta empresa que utiliza todos los “clicks” que damos en la interacción con su plataforma para mejorar la experiencia del usuario.

¿Cómo aplicaría un algoritmo de clasificación y regresión en este caso?

Si Netflix te recomienda una película. El problema de clasificación será si te gusta o no te gusta. Tratará de generar una lista de películas que tengan atributos que anteriormente ya te gustaron de otras películas. Pueden ser géneros, actores, tiempo que tarda o idioma, por decir algunos.

Ahora si un algoritmo tratara de predecir cuántas veces verías esa película. Se vuelve un problema de regresión. Netflix necesita estimar si sus recomendaciones le generarían una mayor carga en sus servidores por consumo de una misma película. En ese sentido usan técnicas de regresión para estimar cuántas veces y en qué momento consumirás ese contenido que te han recomendado.

Conclusión

Ahora que ya conoces esta diferencia te recomendamos ir a experimentar y continuar investigando un poco más por tu parte. Como la escena de la serie “Silicon Valley” donde generaron un modelo para predecir si un platillo era o no era “hot dog”… te recomendamos empezar tu modelo. A lo mejor con algo más serio.

Datlas_Clasificacion

Puedes usar IBM Watson, Microsoft Azure o los servicios de Google Tensorflow para hacer tus experimentos. Si necesitas nuestro apoyo o te gustaría conocer más sobre el proceso para generar un algoritmo exitoso que se pueda consumir de distintas formas no dudes en contactarnos en dirección@datlas.mx . También visita nuestro marketplace donde podrás encontrar este y otros servicios en nuestra sección de consultoría: https://www.datlas.mx/marketplace/

Hasta luego

-Equipo Datlas-

Keep it weird

 

Fuentes:

 

Dimensionando la industria de “Analítica de datos e Inteligencia Artificial” – Datlas Research

¿Cuántas empresas de analítica de datos existen? ¿En qué industrias están participando? ¿Quién está desarrollando Inteligencia Artificial? Hoy hablaremos del mapa de mercado desarrollado por “Firstmark”  (@matttruck). Desde Datlas, startup mexicana de analytics, dedicamos esta columna a profundizando en el dimensionamiento y la clasificación de la industria completa de analítica de datos e inteligencia artificial.

Mapa completo de industria al 2019

2019_Matt_Turck_Big_Data_Landscape_Final_Datlas
Descarga aqui: https://cloudup.com/ck5aIRPKNuU

Según el reporte podemos encontrar 7 industrias y 82 sub-industrias para la industria de “datos” (Analítica, big data e inteligencia artificial).  Ahora haremos un pequeño enfoque a cada una.

1) Infraestructura

Abrir una empresa de analítica de datos y de tecnología hace 20 años tenía como 80% del presupuesto dedicado a infraestructura. Comprar potentes procesadores y sobre todo capacidad de almacenaje físico. Sin embargo, en los últimos 10 años ha ido en incremento los oferentes de poder de cómputo distribuido y almacenaje por nube.

1_Infrastructure_Panorama_Datlas

2) Analítica y Machine Learning(ML)

¿Tableau? ¿Power BI? ¿Watson? la mayoría de sus servicios corporativos pertenecen a la vertical de la subindustria de analítica y ML.  En estas plataformas es posible encontrar soluciones para convertir datos en algoritmos o visualizaciones y así mismo en ventajas comparativas para una empresa.

2_Analytics_ML_Panorama_Datlas

3) Aplicaciones con enfoque a empresa

Hay otro segmento de soluciones prediseñadas donde participan las tecnologías de analítica de nicho. Soluciones para gobierno, industria inmobiliaria o financiera son alguno de los ejemplos de empresas que han generado soluciones tan específicas como para atender un nicho. Estas startups buscan como estrategia ser tan importante en la industria que se acerque algun gigante como IBM, Microsoft o Palantir para adquirir su participación en la industria.

3_Aplicaciones_Empresa_Panorama_Datlas

4) Analítica de infraestructura cruzada

Son compañías que desarrollan diversas plataformas suficientemente robustas como para adaptarse a distintas industrias. En su mayoría podemos entender estos desarrollo como empresas que buscan generar ecosistemas más que productos o servicios.

4_Infraestructura_Cruzada_Analytics_Panorama_Datlas

**Si te interesa conocer más de analítica de datos y Big data te invitamos a solicitar GRATIS el DATA PLAYBOOK Vol. II de DATLAS. Solicítalo aqui. **

Datlas_Playbook_prelaunch

5) Open source – Fuentes abiertas

Hay otro segmento de compañías, organizaciones y desarrolladores independientes que son fieles creyentes del “open source”. Esto hace referencia a los aplicativos que son gratuitos y mejorados por la comunidad que los utiliza. Aunque pareciera que no hay incentivos, casos de éxito como R, Hadoop o Linux , que son Open-source, son impulsores de cambios y mejoras en las industrias de manera significativa.

5_OpenSource_Panorama_Datlas

6) Fuentes de Datos y APIs

Los modelos de analítica y Big data requieren datos listos para ser consumidos. Es decir limpios, estructurados y actualizados. En este sentido hay una serie de empresas de fuentes de datos que se han encargado de desarrollar APIs o carreteras directas a fuentes de datos de valor.  Este es el caso, sobre todo, de aplicaciones móviles que recopilan datos de usuarios y como modelo de negocio comercializan esos datos.

6_RecursosdeDatos_Apis_Panorama_Datlas

Si quieres conocer más de este tema te puede interesar ¿Cómo funciona Location intelligence? el blog donde explicamos este tema a detalle

7) Más recursos de datos

Finalmente otros recursos de datos como las escuelas, incubadoras, centros de investigación o plataformas de retos de datos como Kaggle. Sin restarle importancia (Consideremos que Google ha adquirido un par de estas empresas), continua el incremento y las empresas que quieren ganar nombre desde verticales más tradicionales como consultoría, educación o desarrollo de patentes/algoritmos propietarios.

7_RecursosDatos_Panorama_Datlas

¿Qué opinas del tamaño de la industria? ¿Te imaginabas? Hasta aqui la columna de hoy si te gustó el contenido recuerda compartir y aprovecha nuestros descuentos en el MARKETPLACE DE DATLAS.

***BONUS 8 de Enero 2020*** CB Insights libera un reporte de Tendencias en Inteligencia Artificial donde estructuran las iniciativas de “Alphabet”. Parece que ellos están entendiendo como ir capturando la industria desde distintas empresas.

Alphabet_CB_Insights_KEY_AI_Initiatives_Google

 

Equipo Datlas

-Keep it weird-