¿Big data o right data?
Lo más obvio es creer que la revolución de big data tiene que ver con la masividad, tal vez el aspecto más saliente de la revolución de datos proveniente de la interacción con dispositivos interconectados como los celulares, las tarjetas de crédito o las redes sociales. Datos masivos, que “maridados” con poderosos algoritmos parecen liberar a la ciencia y a la práctica cotidiana (pública o privada) de las viejas limitaciones de la estadística tradicional. A modo de ejemplo, la pobreza en el Gran Buenos Aires se mide con una encuesta de aproximadamente 3.000 hogares (la Encuesta Permanente de Hogares, que releva periódicamente el INDEC), y un sondeo electoral -de esos que proliferarán como hongos en los meses por venir- se basa en no más de 1.000 observaciones. Estas cifras suenan irrisorias en comparación con los miles de millones de datos que escupen a diarios las interacciones a través de las redes sociales.
Una promesa de la estadística clásica es que “más es mejor”, es decir, que, si una estadística está correctamente diseñada, una muestra con más datos tiene que ser trivialmente mejor que una con menos, en el sentido de que cualquier encuesta electoral a la larga es una versión parcial del acto eleccionario, algo así como la madre de todas las encuestas políticas, ya que por definición incluye a todos los votantes. Desde esta perspectiva, big data debería ser la mejor de las noticias para los usuarios de datos, una autentica inyección de vida para disciplinas antes forzadas a hacer esfuerzos ciclópeos para extraer la mayor cantidad posible de información de unas poquitas observaciones.
Tuteando a la ciencia
Mirá también
Tuteando a la ciencia
NEWSLETTERS CLARÍN
Qué pasó hoy | Te contamos las noticias más importantes del día, y que pasará mañana cuando te levantes
Qué pasó hoy | Te contamos las noticias más importantes del día, y que pasará mañana cuando te levantes
DE LUNES A VIERNES POR LA TARDE.
Recibir newsletter
Pero la comparación de los datos de big data con los provenientes de fuentes tradicionales (de encuestas, registros administrativos o experimentos de laboratorio) es de peras con manzanas. Big data es un océano de datos anárquicos, no estructurados y espontáneos, que en general no son generados por el mero propósito de obtenerlos sino con otro objetivo. A modo de ejemplo, cualquiera que utilizó Waze o Google Maps para ir de su casa al trabajo generó datos, miles de datos, pero no con el propósito de crearlos sino con el de elegir el mejor camino.
Por el contrario, los datos de una encuesta o de un experimento provienen de protocolos milimétricos que intentan garantizar que unos pocos datos puedan representar fehacientemente a una población mucho mayor. Asimismo, el auténtico propósito de implementar una encuesta es recabar datos y quienes la responden lo están haciendo conscientemente: hay poco de espontáneo en responder a una encuesta tradicional o en las complicaciones que conlleva llevar a cabo un experimento de laboratorio.
Entonces, más es mejor si la encuesta o experimento están correctamente diseñados para reflejar honestamente la realidad. Es en este marco que cuando una encuesta está bien diseñada, más datos es obviamente mejor que menos y que big data es entonces una gran noticia.
Pero por su propia naturaleza (compleja, asistemática) big data no es ninguna encuesta correctamente diseñada sino un aluvión de datos espontáneos, y entonces más no es necesariamente mejor. Peor aún, es posible que unos poquitos datos muy bien diseñados (de una encuesta o un experimento) contengan mucha más información y lleven a conclusiones más confiables que un mar de datos anárquicos cuando no sesgados. A modo de ejemplo, en los albores del análisis de datos, allá por 1799, el enorme Carl Friedrich Gauss obtuvo importantes mediciones sobre la forma de la Tierra con tan sólo ….. ¡cuatro datos!. Tan sólo cuatro observaciones, pero meticulosamente verificadas y estudiadas a la luz de una precisa teoría astrofísica. Asimismo, los miles de datos que podrían obtenerse de los usuarios de una autopista (con sensores electrónicos, cámaras digitales, etcétera) dicen poco (cuando no nada) de los que no la usan, y que tal vez sean la población relevante a auscultar si se trata de tomar decisiones de política, como invertir en construir un carril adicional.
Big Data: Tu auto dice a quién votás
Mirá también
Big Data: Tu auto dice a quién votás
Big Data: Tu auto dice a quién votás
Mirá también
Big Data: Tu auto dice a quién votás
Entonces, ¿estamos peor con la revolución de big data? No, nada más errado. Big data es una gran noticia, pero, como en tantas cuestiones, no por cuestiones de tamaño sino porque el océano de datos espontáneos puede proveer información crucial de aspectos de la sociedad muchas veces inalcanzables a través de mecanismos tradicionales, como las encuestas o los focus group del marketing. A modo de ejemplo, un reciente y perturbador libro de Seth Stephen Davidowitz (Todos el mundo miente) muestra que un algoritmo de análisis de textos en Google puede recabar información mucho más fidedigna sobre el racismo u otras cuestiones socialmente delicadas (y repudiables) que la que surge de las encuestas tradicionales, sesgadas por prejuicios u otros reparos sociales. Similarmente, las imágenes satelitales pueden revelar información sobre el status y la dinámica de la pobreza en Argentina que son muy difíciles de captar con las encuestas disponibles, sobre todo en áreas rurales y asentamientos marginales.
Como señala Stephen Davidowitz, muy posiblemente la revolución de big data no tenga tanto que ver con big (muchos) sino con right (correctos) data. Es decir, con la promesa de que la proliferación de datos masivos contenga un subjconjunto de datos correctos, que correctamente estudiados y sistematizados permitan iluminar aspectos hasta ahora desconocidos de la ciencia, la política o la actividad empresarial.
Como toda tecnología nueva, big data tiene aspectos positivos, dudosos y negativos. Y si estos últimos son entendidos como desafíos, el potencial es enorme. Evaluar los aspectos beneficiosos y también la “letra chica” de big data es el tema central del reciente libro del autor de esta nota (“Big data. Breve manual para conocer la ciencia de datos que ya invadió nuestras vidas”, Siglo XXI Editores), recientemente publicado en colección de divulgación Ciencia Que Ladra, que intenta acercar al público general temas complejos. En un lenguaje coloquial, pero a la vez científicamente riguroso, el libro es una colección de historias que hablan en forma honesta y objetiva de los beneficios de big data, de su enorme potencial en los sectores público y privado, de los complejos desafíos que plantea en términos de transparencia y privacidad, y de la relevancia de adquirir una mejor cultura computacional, matemática y también social con el objetivo de aprovechar correctamente este auténtico tsunami de datos.