El lado oscuro de los datos

Tras la experiencia que hemos tenido en Datlas de trabajar, recolectar, y analizar datos, hemos visto de su enorme potencial en diversas industrias ayudando en las decisiones de negocio, pero desgraciadamente no todo es color de rosa…

Mientras algunos utilizamos los datos para analizar el potencial de diversas zonas al poner negocios, la popularidad de los establecimientos comerciales, y mejorar campañas publicitarias, algunos otros han utilizado los datos con una finalidad más oscura; por ejemplo, para difundir noticias falsas.

Imagen relacionada

La propagación de noticias falsas en las redes sociales se ha vuelto una gran amenaza para la sociedad, pues no sólo mal-informan al público sino también lo manipulan.

Ya sea para manipular elecciones, llevar al público a elegir un producto sobre otro o incluso para manipular la bolsa de valores, el lado oscuro de los datos se ha manifestado en diferentes vertientes, en el presente artículo mencionaremos sobre su uso y como buenos científicos, sus posibles recomendaciones para erradicarlas.

Existen algunos bots en las redes sociales que son los principales de difundir este tipo de noticias y dirigirlas a cuentas con gran audiencia esperando que los mismos las compartan y así sucesivamente…

De ser así, las noticias falsas se van esparciendo como un virus cuando el público analiza la magnitud de la nota que se acaba de leer y la comparte, pues esto desencadena un efecto dominó.

viral

Hace algunos años, por ejemplo, inició un sitio llamado “El Deforma”, cuyas noticias iniciales llegaron a engañar a más de uno, incluso a la misma prensa; pues en más de una ocasión llegaron a copiarles la nota algunos periódicos de renombre citando fuentes falsas o inexistentes; tal fue el caso de la nota que afirmaba que “Samsung le había pagado una multa a Apple en monedas de 5 centavos”, otro caso de un blog de ciencia más recientemente afirmaba que “la mariguana contenía ADN alienígena, de acuerdo a la NASA”, el contenido de ésta última nota era justamente para demostrar que el público compartía notas sin siquiera leerlas al ser “innecesario” leerlas una vez visto el título.

Esta última nota presenta también un estudio del New York Times en el que concluyen que el 68% de los usuarios de redes sociales que comparten contenido lo hacen para enriquecer su “status” o para proyectar cierta imagen de ellos mismos basado en el tipo de notas que comparten.

Combatiendo el fuego con fuego

BigDataVs

El Big Data está caracterizado por 4 “V’s”: Volumen, Velocidad, Variedad y Veracidad. Esta última V es muy importante, pues trata de por lo cual es importante, pues no basta con procesar de gran cantidad de información, de manera rápida y de diversas fuentes si la información es incierta o falsa.

Se dice que la mala calidad en los datos le cuesta a la economía de Estados Unidos 3 trillones de dólares anuales. Sin embargo, ¿hay algo que se pueda hacer para distinguir qué tipo de información es verídica?

Creemos que podrían emplearse estrategias en las cuales se pueda mejorar la certidumbre en la información para lidiar con este problema.

Algunos podrían pensar que se podría aprovechar la redundancia en los datos, es decir, buscar información similar en varias fuentes y al haberla y ésta sea congruente con la otra considerarla como confiable. Esta estrategia podría funcionar, pero un problema con ella es que la información podría volverse viral y encontrarse en diversas fuentes a pesar de ser falsa.

Podría complementarse esta estrategia con una ponderación basada en el prestigio de la fuente, darle mayor peso a la nota si se publica en un periódico de renombre a si se publica en un blog, por ejemplo.

Otra técnica un poco más sofisticada sería utilizar técnicas de Inteligencia Artificial (como el procesamiento de lenguaje natural) en bases de datos históricas de notas de diversas fuentes previamente clasificadas como verdaderas o falsas para detectar patrones en la nota o conjuntos de palabras que se destacan y desde un enfoque probabilístico determinar la certidumbre de la información.

O bien, combinar ambas técnicas y desarrollar un algoritmo de clasificación de información un poco más robusto.

El #DataTip:

Al vivir en un mundo digital, consideramos indispensable cuestionar de un inicio todo aquello que vemos y no dar por hecho que es correcto, buscar varias fuentes que hablen del tema  y que sean de confianza.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.