Big Data: con “V” corta y largo horizonte

El Big Data es un mojón más en un relativamente corto pero productivo camino recorrido que se cimienta en la matemática aplicada, en la estadística moderna y en los inicios de una programación que quería despegarse de las tarjetas perforadas y que finalmente comienza a ponerse sus pantalones largos en la mitad del siglo pasado. Ya a esa altura los datos empezaban a acumularse rellenando miles de papeles y cientos de bits en medios digitales. Era claro que el volumen de información que almacenaban las empresas empezaba a crecer, y que en algún momento iba a tornarse inmanejable. Más temprano que tarde, surgió una disciplina en torno a la gestión de los datos que apagaría diligentemente ese incendio. Edgar F. Codd publicó en 1970 “Un modelo relacional de datos para grandes bancos de datos compartidos”, paper que vendría a organizar y proponer un modelo nuevo y definitivo para que los datos pudieran organizarse y ser accedidos eficientemente. 

Listo, nos organizamos, ¿y ahora?

El “ahora” reposó largamente durante unos tranquilos veinte años, en los cuales las empresas pudieron dedicarse a sus asuntos reclinándose en anchas y mullidas butacas conformadas por datos pulcros y puntillosamente organizados. Pero esta historia no iba a quedar así. En la década del noventa, la competencia de las empresas en pos de generar más valor para sus clientes generó necesidades de información que no podían cubrirse en tiempo y forma por sus sistemas y datos actuales. En muchos casos ni siquiera podían cubrirse. Entonces las cómodas butacas comenzaron a incomodar a los tomadores de decisiones. Hacía falta algo.

En 1996, teniendo en cuenta múltiples avances realizados mayormente en el campo teórico y en algunas empresas mediante proyectos puntuales, se publica un paper que acuña el término “Descubrimiento del conocimiento en Bases de Datos”. Es esta toda una declaración de principios, a partir de la cual el “conocimiento” necesario para la toma de decisiones puede obtenerse meticulosamente a partir del tratamiento inteligente de los datos. A partir de esta idea, quedan alineadas las disciplinas de Bases de Datos, Procesamiento de Datos, Inteligencia de Negocios y Minería de Datos. Los datos dejaban de tener zonas oscuras, y empezaban a generar valor de forma superlativa. Quizá no faltaba nada… ¿O sí?

 Ya hemos hablado en este blog acerca de Deep Blue, la supercomputadora que en 1997 podía analizar 100 millones de jugadas de ajedrez por segundo. ¿Es esto suficiente? ¿Es poco o mucho? Veamos. La respuesta rápida es que ciertamente es una capacidad de cómputo alucinante, pero siempre hay un escalón más para subir. El tema en cuestión es ubicar el contexto en donde ese escalón pasa a ser necesario. 

Las redes sociales nos dan una mano para entender este estado de cosas. Wikipedia señala 2018 como el año donde nace el concepto del “minuto de Internet”. Esta es una jerga que se aplica a todo lo que ocurre en 60 segundos en un día típico dentro de la Web, en un año de referencia. En 2020, se habla de cerca de 5 millones de videos reproducidos en Youtube, o 200 mil personas tuiteando al unísono en la red del pajarito. Cada vez los números son más impresionantes. Pensemos, por un momento, ¿cuánto tardaría un sistema Web convencional en mostrar al mismo tiempo 764 mil horas de Netflix sin que nos perdamos ni un momento de la enésima vez que miramos con ojos vidriosos el final de Friends…?

Allí está el Big Data. En el hecho de lograr igualar la experiencia de los sistemas convencionales, pero a gigantesca escala.

Pasando en limpio: Big Data no es (solamente) grandes datos. Es lo que hacemos cuando nos enfrentamos a ellos. Parece simple semántica, pero si pensamos que ya teníamos muchos datos desde hace unos 50 años, y que además el término se propone recién en 2011, es lógico que faltan ítems a tener en cuenta. 

Allí vamos entonces. Tres V son las que se suman para dar forma al concepto de Big Data. La primera es la obvia, el Volumen. Si no tenemos muchos datos no hay razón para pensar en grande. La segunda es la Variedad. Actualmente no sólo hay datos numéricos, sino además audio, imágenes, video,… y todo en forma simultánea. Finalmente, si tenemos muchos datos y además variados, no queremos que el combo tarde mucho en rendir frutos: la Velocidad es el tercer factor para hablar seriamente de Big Data. ¿Cuán rápido? Al menos lo suficiente para no sentir el cambio de escala. Abro Netflix, elijo la serie, doy play y listo. De estas tareas, la que más tiempo debería llevar es precisamente elegir la serie, y no por la plataforma precisamente. 

Un buen corte de Big Data marida elegantemente con una copa de algoritmos bien estacionada. Los algoritmos “inteligentes” nos acompañan desde hace unos 70 años, y la potencia que obtienen con el Big Data es evidente. Hoy en día, la unión de ambas fuerzas puede decirnos cómo llegar más rápido al trabajo, ordenar automáticamente nuestras fotos o elegir acertadamente nuestros próximos gustos musicales o cinematográficos.

De estos usos comunes a la Agricultura Inteligente hay un paso. Día a día, miles de celulares realizan sus monitoreos con SIMA. Los datos se conjugan de forma anónima a través de variados algoritmos recién salidos del horno a través de publicaciones científicas aprobadas internacionalmente. Algunas de estas publicaciones también son generadas en el seno del equipo Data Science de SIMA. Porque la investigación también le hace bien a los datos. 

Estos datos, una vez procesados, ordenados y combinados con imágenes satelitales en un esquema de trabajo Big Data, permiten predecir y modelar comportamientos y rendimientos de los cultivos. Asimismo, nuestro equipo se ocupa de identificar y priorizar adversidades, y encontrar las complejas causas que las determinan con la ayuda de modelos computacionales. De esta forma podemos desarrollar funcionalidades que permiten anticiparnos a estas situaciones potencialmente desfavorables, brindando alertas para poder tomar decisiones informadas y a tiempo.

Tres V cortas, una historia no tan corta, Big Data gigante, horizonte largo, futuro promisorio. Los datos están aquí y en SIMA sabemos qué hacer con ellos. La oportunidad es evidente. Aprovechémosla.