ESTADO DE LA CIENCIA DE DATOS 2021-2022, una comparativa que incluye tendencias – COLUMNA DE OPINIÓN DATLAS

Anteriormente, en el blog, se ha definido la relevancia de la ciencia de datos en el mundo actual. Con esto en mente, se desearía conocer el estado actual de la ciencia de datos en lo que va del 2022, de hecho, esta entrada explorará una comparativa de lo que fue la ciencia de datos en el 2021 con su estado del presente año. Además, ¿cuál es el rumbo que seguirá esta ciencia para el 2023?

Anaconda y su fuente de datos

Para hacer la comparación entre años, se ha decidido utilizar los datos proporcionados por Anaconda. Anaconda no solo es una compañia si no que también es un movimiento que se enfoca en mejorar la percepción del mundo, así como proveer un innovaciones de open-source. Dicho esto, la empresa y movimiento generan un reporte anual denominado como State of Data Scince report, el cuál contiene dversas métricas enfocadas a las aplicaciones de la ciencia de datos por parte de las empresas. El reporte del 2021 tuvo una canalización en como la ciencia de datos crecía como un nuevo campo, adoptaba tendencias comerciales e intrigaba en el ámbito estudiantil para el futuro. Sin embargo, el reporte del 2022 recopiló información demográfica de la comunidad con la idea de descubrir las tendencias que se siguen. Aunque ambos reportes no cuenten con el mismo enfoque, las métricas para que puedan ser comparados son iguales en ciertos puntos, es por eso que, la comparativa se dará a través de los puntos Adopción del open-source por parte de las empresas y Trabajos de datos y el futuro del trabajo.

Adopción del open-source empresarial

Para empezar, en el 2021, el equipo de Anaconda planteó la pregunta, a su audiencia, ¿Tu empleador promueve a ti y a tu equipo a adoptar proyectos de open-source?, mientras que en el 2022 la cuestión fue ¿Cómo es que tu empleador empodera a ti y a tu equipo a contribuir en proyectos de open-source?. Por un lado, en el 2021, el 65% de los encuestados respondieron que su empleador sí promueve el uso del open-source en sus proyectos, pero el 14% estaba inseguro y el 21% había contestado que no. Ahora bien, se creería que el porcentaje de empresas adoptando proyectos de open-source aumentarñia, sin embargo, el reporte del 2022 indica que solo el 51.99% de los encuestados, que pertenecen al área comercial, han sido alentados a contribuir en este tipo de proyectos, lo que indica un decremento alrededor de 13%. Según Anaconda, el decremento se puede deber a preocupaciones en cuanto a la seguridad de los datos.

Respuestas de la adopción del open-source empresarial en el reporte del 2021.

Los trabajos de datos y el futuro del trabajo

Dentro del campo del trabajo relacionado con lo datos, el reporte del 2021 se centralizó en explorar los sentimientos de las personas en cuanto a la automatización de procesos con el uso del Aprendizaje de mñaquinas o Machine Learning (ML) para resolver problemas reales-mundiales. Así, el 55%, de los encuestados, tenía esperanzas de ver más proyectos de automatización con ML, mientras que el 41% tuvo sentimientos neutrales y el 4% mostró preocupaciones en como la automatización podría afectar la ciencia de datos. Por otra parte, el reporte del 2022 tuvo otro acercamiento. Su acercamiento fue basado en el problema de atraer y retener empleados en la industria tecnológica, pues el equipo de Anaconda comenta que este ha sido unn desafío que ha crecido más que nunca en el año analizado. Con esto, se preguntó a los encuestados ¿Que tanta preocupación muestra tu organización sobre el iimpacto potencial que puede tener la escasez de talento? Dicha pregunta fue respondida a través de cinco niveles, el 10% expresó que no había preocupación alguna, el 27% dijo que sentía una ligera preocupación, el 32% fue parte de una preocupación moderada, el 25% comentó tener mucha preocupación y el 5% restante mencionó una preocupación extrema. A pesar de que ambos reportes responden dos cuestiones distintas, los reportes pueden ser relacionados, de hecho, el reporte del 2021 hablaba de la preocupación de la automatización, lo que indicaría que una mayor automatización de procesos requeriría de menos personal o empleados. Es decir, es posible que exista una causalidad entre ambos eventos, en donde la tecnológia avanza para tomar el puesto de un human.

Preocupaciones de la escasez de talento por la continua automatización de procesos del reporte del 2022.

Las tendencias que seguirá la ciencia de datos

Ambos reportes incluyen un acecamiento a las tendencias que seguirá la ciencia de datos en cuanto al ámbito empresarial. El reporte del 2021 tuvo un análisis en dónde se llegaba a diversas conclusiones. La primera conclusión fue que Python (el lenguaje de programación) seguirá dominando el area de la ciencia de datos, mientras que la segunda conclusión afirmaba que las empresas están listas para contribuir a la innovación que incluye proyectos de open-source, por su parte, la tercera conclusión mencionaba que el sentimiento frente a la automatización seguirá creciendo, por último, la cuarta conclusión proponía la idea de que se debe exigir, críticamente, una ética en la ciencia de datos. Si bien el reporte del 2021 da la impresión de que el campo de la ciencia de datos estaba creciendo, el reporte del 2022 profundiza en algunas de las conclusiones del reporte del 2021 y añade algunas preocupaciones. De esta manera, el reporte de este año indica que en el ambiente profesional, la seguridad en proyectos de open-source será la prioridad más importante. También, las organizaciones aún tratrán de resolver el conflicto con la escasez de talento que se genera (discutida en antriormente). Incluso, la ética, los prejuicios y la regulación de los datos, mencionada en la cuarta conslución del reporte del 2021, necesita más atención. Finalmente, el aspecto general de la ciencia de datos, la inteligencia artificial y las comunidades queutilizan el aprendizaje de máquinas están preparadas para más innovación.

Eso es todo por la columna de hoy. Y tú, ¿sabías como estaba el estado de la ciencia de datos antes de saber sobre estos reportes?

Equipo Datlas

-Keep it weird-

Referencias:

El detector de objetos que sobresale en el mercado de la Inteligencia Artificial – COLUMNA DE INVESTIGACIÓN DATLAS

Dentro de los campos de la Inteligencia Artificial (IA), existe la posibilidad de detectar un objeto en particular en imágenes o videos. Según Cath Sandoval de Lisa Insurtech, las detecciones consisten en clasificar objetos de acuerdo a una o más clases, por ejemplo, animales, vehículos, plantas, humanos, cheves, entre otras. Sin embargo, el mercado, de este tipo de tecnologías, tiene un producto que va más allá de hacer uso de una simple red convolucional. Estamos hablando de YOLO.

¿Qué es YOLO?

YOLO, por sus siglas You Only Look Once, es un algoritmo de regresión que estima la/s clase/s y la localización exacta de un objeto en una imagen. Así, YOLO hace uso de deep learning y redes convolucionales en su proceso de detección y clasificación de objetos, no obstante, resalta en el mercado porque solamente necesita visualizar la imagen a clasificar 1 vez, tal y como lo dice su nombre. Asimismo, YOLO tiene distintas versiones en su modelo, de tal manera que cada versión puede considerarse como una mejora a la versión pasada. A continuación, te mostramos una imagen que compara YOLOv3, YOLOv4 y 4 modelos ajenos a YOLO.

Comparativa de detectores de objetos

Como se puede ver en la imagen, YOLOv4 (haciendo referencia al 4to modelo de YOLO) presenta los mejores resultados porque analiza más fotogramas por segundo con una alta AP (Average Precision). Es necesario mencionar que, actualmente, existen más de 7 versiones de YOLO, pero únicamente se tiene documentación disponible de 4 versiones, pues el resto de versiones aun están en desarrollo.

El por qué deberías usar YOLO

Para tener la capacidad de decir que esta arquitectura computacional sorprende al mercado, deberíamos tener en cuenta las ventajas que promueve YOLO:

  1. Es muy rápido, porque puede llegar a clasificar 45 o más fotogramas por segundo dependiendo del modelo que se utilice.
  2. Tiene una versión ligera, sencilla y veloz. Esta pequeña versión es conocida como Tiny-YOLO que comprime las capas de la red neuronal promoviendo una mayor velocidad al costo de una menor precisión del modelo original.
  3. La detección de objetos con YOLO es libre de uso.
  4. No tiene costo monetario por ser implementada o utilizada.

Implementando YOLO

Esta herramienta computacional puede ser implementada de 3 maneras posibles:

  1. Darknet: Es la primera instancia de YOLO, de hecho, es su versión oficial y fue publicada por las personas que diseñaron el algoritmo. Todo el código esta programado en C con CUDA por lo que se sugiere utilizar un fuerte GPU para correr tus detecciones.
  2. Darknet de AlexeyAB: Es un proyecto de GitHub publicado por Alexey Bochkovskiy que adapta la versión de Darknet original para Windows y Linux. Incluso, el código puede ser importado a Python, de tal manera que puedas entrenar una red con tu propio dataset de imagenes y correr detecciones en vivo.
  3. Darkflow: Viene a ser un port de la versión original de Darknet pero hacia Tensorflow, además, esta publicado en GitHub, por lo que puede ser importado a través de un código.
Logo oficial de Darknet

Conclusión

Para cerrar el blog de hoy, hemos aprendido que tenemos una tecnología muy poderosa en nuestro alcance y completamente gratuita. Esta breve introducción a los modelos de YOLO ofrece una perspectiva de a dónde se dirige este tipo de mercado y brinda 3 maneras de utilizar la tecnología con su debida información. Si te interesa aprender más, existen guías en la web que facilitan la inducción a YOLO.

Muchas gracias por leernos.

Equipo Datlas

-Keep it Weird-

Fuentes: