viernes, junio 22, 2018

Big data no equivale a todos los datos



Sin tomar los recaudos necesarios, el caudal de información al que es posible acceder es tan solo una enorme muestra de pedazos de un laberinto borgeano; limitaciones al potencial del universo de datos.

"Hacer una muestra aleatoria en la época de big data es como usar un caballo en la era del automóvil" dicen Viktor Mayer-Schonberger y Kennet Cukier en su sobreentusiasta libro sobre el tema, titulado Big data: una revolución que transformará como vivimos trabajamos y pensamos. Los sectores más optimistas en relación a la revolución de datos abrazan la idea de que estamos cerca de tener "todos los datos", lo que los lleva a opinar que las muestras, los experimentos y otras estrategias de la ciencia tradicional son cosas del pasado, y a hablar de que ahora "N=todos"; la letra "N" es frecuentemente usada en estadística para referir al tamaño de la muestra.

Es tal el entusiasmo de los nuevos científicos de datos, que muchas veces pasan por alto la verdadera razón por la que analistas de las ciencias naturales y sociales tuvieron que recurrir a estrategias como el diseño de experimentos o encuestas sistemáticas, para proveerse de información. Y oculta en esa razón se esconde la idea de que, por más información que genere big data, no hay forma de que lleguemos a tener todos los datos, lo cual enciende una luz de cautela sobre esta efervescencia moderna con el análisis de datos inescrupuloso.

Vayamos a un ejemplo. Si para evaluar la efectividad de hacer dieta comparásemos el peso de Alberto -que sigue puntillosamente un régimen para adelgazar- con el de Manuel -flaco por naturaleza y que en su vida se preocupó por su alimentación-, muy posiblemente nos dé que Alberto es más obeso que Manuel, por lo que algún despistado querrá concluir que las dietas no funcionan, ¿o no es cierto que los que hacen dieta son más gordos? Tampoco serviría comparar a Alberto antes y después de hacer dieta: posiblemente el régimen haga bajar de peso a Alberto, pero quizás el descenso se deba tanto a la dieta como al plan de crossfit que siguió a la par de las indicaciones de su nutricionista.

En cualquiera de estas dos circunstancias (Alberto y Manuel, Alberto antes y después de la dieta), estamos comparando peras con manzanas. En el primer caso, las razones por las que Alberto inicia una dieta son las mismas por las cuales Manuel no lo hace: uno estaba excedido de peso y el otro, no. Entonces, la comparación entre Alberto y Manuel refleja tanto el hecho de que uno hace dieta y el otro no, como que Alberto pesa más que Manuel más allá de la dieta. En el segundo caso (antes y después) se nos mezclaron los efectos de la dieta con los de otros esfuerzos que hizo Alberto para bajar de peso.

La evaluación de efectos causales parece estar atada a la posibilidad de comparar "manzanas con manzanas" y "peras con peras": Alberto haciendo dieta con Alberto no habiendo hecho dieta, o Alberto antes y después de hacer dieta pero sin haber hecho ninguna otra cosa que interfiriese con su peso. "Ser o no ser" dice el famoso soliloquio de Hamlet, sugiriendo que las comparaciones de "manzanas con manzanas" son virtualmente imposibles, ya que parecen requerir que existan Alberto haciendo dieta y también Alberto no haciendo dieta, ser y no ser.

En El Jardín de Senderos que se Bifurcan, Jorge Luis Borges plantea un laberinto en donde conviven "una infinita trama de tiempos que se bifurcan, se cortan o secularmente se ignoran" y que "abarca todas las posibilidades". En el laberinto borgeano es muy fácil evaluar la efectividad de hacer dieta: se trata de buscar "al Alberto que hizo dieta" y compararlo con "el Alberto que no hizo dieta", manzanas con manzanas. Pero, como adelantásemos, la realidad es mucho más difícil ya que solo una de las circunstancias es observable; es uno o el otro, pero jamás los dos.

El diseño de experimentos es uno de los grandes logros de la ciencia moderna. Su esencia consiste en aislar el canal a través del cual una cosa afecta a la otra. En este sentido, un agrónomo asigna fertilizante a una parcela y no a la otra, pero garantizando que ambas tengan la misma cantidad de luz o agua, de modo que, luego del experimento, las diferencias en el crecimiento de las plantas se deban fundamentalmente al fertilizante. El experimento es un intento de reconstruir el laberinto borgeano: si está bien diseñado, es como si una parcela fuese exactamente la otra salvo por el fertilizante, resultando en una comparación de "peras con peras". La implementación de experimentos bien diseñados ha permitido avanzar a pasos agigantados a las ciencias tradicionales como la medicina o la biología, y, con el rezago esperable, también a las ciencias sociales, incluyendo a la economía.

Sin los cuidados necesarios, big data es tan solo una enorme muestra de pedazos del laberinto borgeano, de Albertos, Manueles, Martas, Titos y tal vez miles de millones de personas que hicieron dieta o no, pero nunca, jamás, de la misma persona que hizo y no hizo dieta.

No existe forma de que big data revele los senderos no transitados. Por su naturaleza "observacional" (basada en la observación de comportamientos) solo muestra resultados de acciones y no de sus correspondientes acciones "contrafácticas". Los terabytes de datos de usuarios de una autopista tal vez captados por sensores y en forma virtual pueden decir muchísimo de ellos, pero casi nada de los que deciden no usarla.

Y a los efectos de la política pública, la información de ambos grupos es crucial. Esta limitación de datos explica por qué es tan difícil evaluar políticas sociales como la Asignacion Universal por Hijo (AUH): como no fue asignada al azar, la comparación entre quienes la recibieron y quienes no, es de peras con manzanas, lo que requiere sofisticados métodos estadísticos para arribar a una evaluación confiable.

El objetivo central de un experimento es crear información contrafáctica y no observarla, porque, como ya dijimos, es inobservable. Entonces, desde el punto de vista de la determinación de causas y efectos, no existe forma de que big data pueda aportar "todos los datos", porque solo observa acciones y no contrafácticos.

Esto no elimina el potencial de big data, sino que lo relativiza. Es el trabajo inteligente del analista el que deberá usar el potencial de los muchos datos para explorar cuestiones causales. Muy posiblemente big data ayude considerablemente al diseño de experimentos, a la construcción de contrafácticos, o a la detección de datos que, sin bien de origen observacional, se comporten como si hubiesen sido generados por un experimento y sirvan para entender canales causales. Sí, es raro usar caballos en épocas de automóviles. Pero aprender relaciones causales mirando datos es como pretender inferir las leyes de la mecánica viendo pasar autos, por muchos que sean.

Walter Sosa Escudero. Profesor de la UdeSa e investigador principal del Conicet 

No hay comentarios:

Publicar un comentario