Big data o cómo los datos masivos están cambiando el mundo

Claudia Hernández

Shutterstock

Estamos inundados de datos que sólo sirven si se analizan para convertirlos en información.

Hace unos años la revista de negocios de la Universidad Harvard, Harvard Business Review, anunció que ser científico de datos es la carrera más sexy del siglo XXI. A primera vista, parece que científico de datos es un término elegante para referirse a un especialista en estadística, pero el concepto va mucho más allá porque no sólo se trata de analizar datos, sino de analizar datos en cantidades enormes, o datos masivos, un nuevo concepto que está revolucionando nuestra manera de aprender, de hacer negocios e incluso de generar conocimiento científico.

Definición en proceso

Big data, datos masivos o macrodatos son tres maneras en que nos referimos a un mismo concepto que aún no podemos definir con exactitud. Lo más evidente es que el volumen de un conjunto de datos masivos es tan grande, que las capacidades de memoria de muchas computadoras son insuficientes y las herramientas tradicionales de análisis son inadecuadas, así que procesarlos empezaba a complicarse, por decir lo menos.

Como la idea de grande que va implícita en el término big data puede tener varias interpretaciones, digamos que el tamaño de un conjunto de datos masivos puede ser del orden de decenas de terabytes (un terabyte, o TB, es igual a mil gigabytes, GB), o incluso varios petabytes (un petabyte equivale a un millón de GB). Esto equivale a muchos, muchos datos. Para ponerlo en perspectiva, consideremos que, si un plan de telefonía celular de 1 GB alcanza para ver Toy Story, con un plan de un petabyte podríamos ver la película ininterrumpidamente durante más de 170 años.

El analista estadounidense Doug Laney habla de dos características de los datos masivos, además de su volumen, que también comienzan con la letra v: velocidad y variedad. Un ejemplo de conjuntos de datos con estas características son los avisos provenientes de redes sociales, llamadas telefónicas e incluso reportes en persona, que contribuyen a priorizar acciones en situaciones de emergencia (por ejemplo, tras un desastre): son datos que llegan en formatos diversos y que es preciso analizar lo más rápido posible.

La empresa estadounidense desarrolladora de software de análisis SAS propone otras dos características: variabilidad y complejidad. La primera se refiere a que los datos pueden interpretarse de maneras distintas, mientras que la segunda tiene que ver con las múltiples fuentes de origen de los datos, lo que los hace difíciles de vincular, empatar y depurar. Pensemos en los hashtags o los temas que se hacen tendencia en las redes sociales y que tienen que funcionar todos a la vez.

En su libro Big data, la revolución de los datos masivos, Viktor Mayer-Schönberger y Kenneth Cukier aventuraron la siguiente definición de datos masivos: un conjunto de datos que es ilimitado y no estructurado (es decir, que no lleva un orden, sino que los datos se registran conforme se reciben); impreciso pero predecible (o sea, que puede contener patrones y que unos datos se pueden inferir de otros) y que puede mostrar correlaciones, aunque no relaciones de causalidad.

Big data, o cómo los datos masivos están cambiando el mundo

Cuando masivo se refiere a todo

Viktor Mayer-Schönberger y Kenneth Cukier explican que un conjunto de datos también puede considerarse un caso de datos masivos si contiene absolutamente todos los datos posibles en una circunstancia dada, aunque en cantidad no sean muchos. En este caso se trata de una cantidad de datos que es masiva en términos relativos, es decir, en relación con el conjunto exhaustivo de datos.

Un ejemplo de esto es el análisis llevado a cabo por los economistas Mark Duggan y Steven Levitt de la Universidad de Chicago entre enero de 1989 y enero de 2000. Duggan y Levitt analizaron cuidadosamente los 64 000 encuentros de sumo que se llevaron a cabo en Japón en esas fechas para averiguar si los combates habían sido arreglados, es decir, si el ganador estaba decidido desde el principio. Lo que descubrieron fue que sí hubo arreglos fraudulentos, pero no en los encuentros importantes como semifinales y finales, sino en las justas intermedias, que al final permitían ganar los puntos necesarios para que los luchadores se mantuvieran dentro de cierto intervalo de rendimiento.

Háganse los datos

Una pregunta muy natural es ¿de dónde sale esta profusión de datos? La respuesta es sencilla, aunque no evidente: de nosotros mismos y de nuestros aparatos electrónicos. En general no estamos conscientes de esto porque tendemos a pensar que nuestras interacciones con los servicios en línea son unidireccionales, es decir, que las empresas nos proporcionan sus servicios y nosotros no damos nada a cambio. Esto no puede ser más falso. Cada vez que accedemos a nuestras redes sociales, servicios de streaming o el buscador de nuestra preferencia, aparecen las famosas cookies. Estos vigilantes, que no son otra cosa que pequeños paquetes de datos, se encargan de registrar todo lo que hacemos mientras usamos los servicios digitales, y las empresas luego usan estos datos con diferentes propósitos. O sea que al final sí hay un pago y la moneda de cambio son nuestros datos en la forma de nuestra ubicación, nuestros intereses, nuestros amigos, nuestros gustos y nuestras posibilidades económicas, entre otros.

Esta cantidad de datos multiplicada por el número de usuarios de servicios digitales ya es una cantidad considerable, y eso sin tomar en cuenta lo que proviene del llamado internet de las cosas (véase ¿Cómo ves?, No. 174). Este concepto se refiere a la interconexión que existe entre muchos aparatos que se conectan a internet: computadoras, celulares, televisiones, radios, alarmas domésticas y hasta refrigeradores, por mencionar algunos. Todos estos aparatos se comunican entre ellos y con los usuarios, lo que produce todavía más datos. ¿No les ha pasado que indagan en Google sobre alguna ciudad y luego en Facebook les aparecen promociones de aerolíneas para viajar a esa ciudad, o reciben correos de TripAdvisor con algunas recomendaciones locales? Esto pasa porque nuestro rastro digital se queda almacenado en una nube a la que tienen acceso muchas empresas y éstas los analizan con algoritmos de aprendizaje automático para hacernos sugerencias relacionadas (véase ¿Cómo ves?, No. 215).

Y también podemos hablar de la intraconexión en un mismo aparato. Hace unos meses Waze me sorprendió al avisarme que era hora de salir para llegar a tiempo a una película. Efectivamente, yo tenía boletos para esa película, en ese cine y a esa hora, pero nunca le pedí que me notificara. Es más, ni siquiera le avisé que había comprado los boletos. Lo que ocurrió es que hice la compra por medio de la app del cine y luego Waze interpretó la huella de unos y ceros que se quedó en mi teléfono en mi beneficio, para que no se me hiciera tarde. Las apps de los teléfonos comparten datos y poco a poco van conformando perfiles muy detallados de sus dueños: a qué cines van, cómo se trasladan, en qué bancos hacen sus transacciones bancarias, si hacen compras en línea, en qué tiendas y qué compran, con quiénes se comunican más, etcétera.

¿Se imaginan cuántos datos se generan con tan sólo estos ejemplos de interacción digital? ¿Cuántos datos ya hay pululando por el mundo? ¿Cuántos datos más podría haber? La empresa International Data Corporation calcula que para el año 2020, la cantidad de datos generados rondará los 40 zettabytes (ZB), es decir, un 40 seguido de 21 ceros. Esta cantidad de datos equivale más o menos a todos los granos de arena que hay en la Tierra multiplicados por 75.

Un empujoncito

Piensen en una frase como “tenemos derecho a portar armas” acompañada de la imagen de una escuela donde hubo un tiroteo, de la imagen de un cazador con su trofeo animal en las planicies africanas o la de un ladrón que está tratando de entrar en una casa cualquiera. Dependiendo de nuestros intereses, estas composiciones de texto e imagen pueden causarnos empatía o desaprobación y pueden influir en las decisiones que tomamos. En las elecciones estadounidenses de 2016 se vio mucho de esto y hoy en día Mark Zuckerberg, fundador de Facebook, está en juicio por esta razón. A muy grandes rasgos, lo que ocurrió fue que Facebook vendió a Cambridge Analytica, una empresa británica especializada en análisis de datos, los datos de millones de usuarios de la red social. La información proveniente de esos datos se usó para influir ilegalmente en los votantes.

Al parecer, los memes hechos a la medida también se utilizaron en las campañas presidenciales de este año en México, pero aún no se hace un estudio serio al respecto.

Nuevas formas de conocer

Una de las técnicas computacionales que utilizan los especialistas en análisis de datos masivos para encontrar patrones de información es la minería de datos. Se trata de procesos repetitivos para encontrar información nueva, de valor y no trivial contenida en todos esos datos. No se trata de algo que puedan hacer por sí solas las personas ni las computadoras. En su libro Minería de datos: conceptos, modelos, métodos y algoritmos, el computólogo Mehmed Kantardzic hace especial énfasis en que los mejores resultados se consiguen cuando una persona potencia su creatividad con las capacidades de búsqueda de las computadoras. Por ejemplo, saber cuántos vuelos salen todos los días de madrugada de cualquier aeropuerto podría no servir de mucho. Pero si además se sabe la cantidad de pasajeros, los tiempos de vuelo estimados y si se servirán alimentos a bordo o no, se puede decidir si es rentable tener una tienda abierta en ese horario para que las personas puedan comprar un refrigerio por si acaso. Las computadoras pueden hacer búsquedas exhaustivas en poco tiempo y las personas pueden valorar si, en efecto, se trata de una buena oportunidad de negocio.

Hacer análisis de datos masivos es como mirar a través de un microscopio que nos revela detalles que nunca antes habíamos visto. Y todos esos detalles bien podrían ayudarnos a resolver problemas cada vez más grandes o a contestar preguntas cada vez más importantes. Un gran ejemplo de esto es el experimento que el profesor Deb Roy llevó a cabo para tratar de entender cómo adquirimos el lenguaje los seres humanos. En una entrevista con la cadena de televisión pública estadounidense PBS, Roy argumenta que una de las razones por las que no podemos contestar esta pregunta es la falta de datos, así que se propuso obtenerlos y para eso instaló una cámara en cada habitación de su casa. Durante dos años registró todo lo que pasaba alrededor de su hijo recién nacido y todo lo que se le decía, más o menos 200 GB de datos y unos nueve millones de palabras. Lo que pudo inferir a partir de los datos es que lo relevante no es la repetición de las palabras, sino el contexto. Es decir, que las palabras que se aprenden primero no son las que se oyen más, sino las que se presentan en más contextos. Si bien este resultado no es definitivo, constituye un punto de partida para hacer más investigación.

Rob Kitchin, fundador de la revista Big Data & Society, señala que el análisis de datos masivos está transformando nuestra manera de entender el mundo y de generar conocimiento. Antes de los datos masivos, lo que solía ocurrir es que primero se hacían observaciones, luego se construían las teorías, después se ponían a prueba y se verificaban o se desechaban y al final se registraban. Hoy en día, primero se registran los datos y luego se analizan en busca de patrones, aunque no se les pueda asociar una teoría en el sentido científico estricto. Esto se debe, para empezar, a que el análisis de conjuntos de datos masivos sirve para inferir probabilidades. Por ejemplo, la probabilidad de que un correo electrónico sea spam o que la combinación de letras lsa sea un error de quien quiso escribir las. No está de más mencionar que en estas inferencias puede haber incertidumbre y hasta errores, y por eso algunos mensajes de spam se nos cuelan a la bandeja de entrada y el autocorrector nos hace pasar malos ratos.

Uso responsable de los datos

La información proveniente de los datos puede servir individual y colectivamente. Por ejemplo, los perfiles que los celulares hacen de sus dueños pueden ayudar a las personas a darse cuenta de sus hábitos nocivos, como pasar demasiadas horas frente a la pantalla por la noche en lugar de dormir, pero también sirven a los sistemas de salud para hacer un diagnóstico de cómo se comporta la población en términos generales y diseñar campañas de higiene del sueño. Analizando los datos provenientes de millones de personas, tanto médicos como instituciones pueden comenzar a ver los asuntos de salud con otros enfoques y usar una misma cadena de información en diferentes contextos. El análisis de datos provee información que puede ayudarnos a cambiar nuestro comportamiento conjuntamente como sociedad.

Como es de esperarse, no todo es color de rosa y varios expertos en el tema lo han señalado, como el empresario e inventor estadounidense Jay S. Walker. Él ha sugerido que todas las herramientas con potencial para cambiar el mundo pueden hacerlo tanto hacia lo deseable como hacia lo menos deseable. Tengamos por seguro que hay muchos datos sobre cada uno de nosotros almacenados en alguna nube, el problema es que no sabemos qué datos son, en dónde están, para qué se van a usar y quién va a usarlos. Hoy más que nunca es muy importante que tengamos claro qué uso se da a nuestros datos, o si tenemos acceso a ellos, cosa que podríamos empezar a hacer si leemos los avisos de privacidad y la sección de términos y condiciones de nuestras apps y servicios digitales.

No hay que dejar de considerar que en la era de la información, el poder se mide en términos de conocimiento. No estar al tanto de lo que ocurre a nuestro alrededor y a partir de nuestras interacciones con las demás personas sólo nos hace más vulnerables.

Más información

Mayer-Schönberger, Viktor y Kenneth Cukier, Aprender con big data, Turner publicaciones, España, 2018.
Tascón, María y Coullaut, Arantza; Big Data, Ed. Los libros de la catarata, España, 2016.

Claudia Hernández García estudió matemáticas y filosofía de la ciencia en la UNAM. Se ha dedicado a la comunicación de la ciencia por dos décadas y es parte del equipo de ¿Cómo ves?