Archivo de la etiqueta: algoritmos méxico

Algoritmos Supervisados: Clasificación vs. Regresión – Datlas Research

Existen 2 métodos populares para Machine Learning cuando de métodos supervisados hablamos.  Nos referimos a los algoritmos de clasificación y regresión. Fundamentalmente, es importante que los lectores conozcan que los de clasificación predicen una “etiqueta” y los de regresión predicen una cantidad. En esta columna explicaremos de qué tratan, sus diferencias y compartiremos algunos casos de uso frecuentes.

Datlas_ML_Supervised_NotSupervised

¿Qué es aprendizaje de máquina (Machine Learning)?

Es una disciplina científica del ámbito de la Inteligencia Artificial que crea sistemas que aprenden automáticamente. Aprender en este contexto quiere decir identificar patrones complejos en millones de datos. La máquina que realmente aprende es un algoritmo que revisa los datos y es capaz de predecir comportamientos futuros. Automáticamente, también en este contexto, implica que estos sistemas se mejoran de forma autónoma con el tiempo, sin intervención humana. Veamos cómo funciona. (Leer en bibliografía en fuentes).

¿Qué significa algoritmo?

Conjunto ordenado de operaciones sistemáticas que permite hacer un cálculo y hallar la solución de un tipo de problemas. O una serie de instrucciones sencillas que se llevan a cabo en cierto orden para resolver una pregunta.

Datlas_barra_suscribir

Recordemos que estamos hablando en esta columna de algoritmos de la familia de de ML supervisada (Necesita datos “etiquetados” para ser entrenada, en contraste con la no supervisada que a partir de una serie de datos genera clústers o asociaciones).

Algoritmos de Clasificación

Predicen etiquetas o clases que se conocen a priori. El resultado deseado es una etiqueta discreta o específica. En el caso del modelo entrenado sea entre 2 clases, se determina como binaria. Si tenemos que predecir más de 2 clases se le conoce como clasificación multicategórica.

Técnicas:

Ejemplos de casos de uso:

  • Segmentación para estrategias de marketing. Cómo poder diferenciar estrategias de promoción y precio para mis usuarios. Te puede interesar nuestro blog “Segmentar Clientes usando mapas”
  • Categorización de siniestros. Podríamos categorizar las zonas más siniestradas de una ciudad entrenando un modelo con la historia de datos. De esta manera se podrían generar mejores rutas de patrullaje por los policías. Te puede interesar: “Categorizando choques y siniestros en Nuevo León”.
  • Predecir el éxito. Para hoteles u hospedajes de AIRBNB podríamos predecir si van a tener éxito o no considerando las variables que comunican en sus anuncios. Revisa: “AIRBNB amenaza o bondad en CDMX”.

Datlas_barra_suscribir

Datlas_regression-vs-classification-in-machine-learning

Algoritmos de Regresión

Es útil para predecir productos continuos. La respuesta se presenta como cantidad. El valor predicho puede usarse para identificar la relación lineal entre atributos.

Técnicas:

Ejemplos:

  • Precios de vivienda. Estimar precios de inmuebles considerando variables como dimensión de propiedad, tamaño de construcción, pisos, recámaras y otras características. Te puede interesar nuestro blog “Desarrollando un valuador inmobiliario”
  • Predecir camas hospitalarias necesarias. Una oficina o secretaría de salud podría predecir con base a su histórico la cantidad de camas y doctores que serán necesarios el próximo año para atender a la demanda de la población. Un avance que pudieramos llevar allá es con la cantidad de mujeres embarazadas. Podrías leer nuestro blog sobre el tema.
  • Identificar las cervezas que necesitarás en tu inventario. Predecir la cantidad de inventarios es una de las aplicaciones más usadas en el sector retail. Podrías revisar nuestro blog ¿Cómo detectar cheves con Tensorflow?

Escenario para reforzar: NETFLIX

Un problema tomando en cuenta Netflix, proveedor de entretenimiento al que muchos de los lectores están suscritos. A cambio de una mensualidad pueden ver series y películas. Pero muy probablemente en su experiencia hayan recibido recomendaciones de los algoritmos de esta empresa que utiliza todos los “clicks” que damos en la interacción con su plataforma para mejorar la experiencia del usuario.

¿Cómo aplicaría un algoritmo de clasificación y regresión en este caso?

Si Netflix te recomienda una película. El problema de clasificación será si te gusta o no te gusta. Tratará de generar una lista de películas que tengan atributos que anteriormente ya te gustaron de otras películas. Pueden ser géneros, actores, tiempo que tarda o idioma, por decir algunos.

Ahora si un algoritmo tratara de predecir cuántas veces verías esa película. Se vuelve un problema de regresión. Netflix necesita estimar si sus recomendaciones le generarían una mayor carga en sus servidores por consumo de una misma película. En ese sentido usan técnicas de regresión para estimar cuántas veces y en qué momento consumirás ese contenido que te han recomendado.

Conclusión

Ahora que ya conoces esta diferencia te recomendamos ir a experimentar y continuar investigando un poco más por tu parte. Como la escena de la serie “Silicon Valley” donde generaron un modelo para predecir si un platillo era o no era “hot dog”… te recomendamos empezar tu modelo. A lo mejor con algo más serio.

Datlas_Clasificacion

Puedes usar IBM Watson, Microsoft Azure o los servicios de Google Tensorflow para hacer tus experimentos. Si necesitas nuestro apoyo o te gustaría conocer más sobre el proceso para generar un algoritmo exitoso que se pueda consumir de distintas formas no dudes en contactarnos en dirección@datlas.mx . También visita nuestro marketplace donde podrás encontrar este y otros servicios en nuestra sección de consultoría: https://www.datlas.mx/marketplace/

Hasta luego

-Equipo Datlas-

Keep it weird

 

Fuentes: