Sin tomar los recaudos necesarios, el caudal de información
al que es posible acceder es tan solo una enorme muestra de pedazos de un
laberinto borgeano; limitaciones al potencial del universo de datos.
"Hacer una muestra aleatoria en la época de big data es
como usar un caballo en la era del automóvil" dicen Viktor
Mayer-Schonberger y Kennet Cukier en su sobreentusiasta libro sobre el tema,
titulado Big data: una revolución que transformará como vivimos trabajamos y
pensamos. Los sectores más optimistas en relación a la revolución de datos
abrazan la idea de que estamos cerca de tener "todos los datos", lo
que los lleva a opinar que las muestras, los experimentos y otras estrategias
de la ciencia tradicional son cosas del pasado, y a hablar de que ahora
"N=todos"; la letra "N" es frecuentemente usada en
estadística para referir al tamaño de la muestra.
Es tal el entusiasmo de los nuevos científicos de datos, que
muchas veces pasan por alto la verdadera razón por la que analistas de las
ciencias naturales y sociales tuvieron que recurrir a estrategias como el
diseño de experimentos o encuestas sistemáticas, para proveerse de información.
Y oculta en esa razón se esconde la idea de que, por más información que genere
big data, no hay forma de que lleguemos a tener todos los datos, lo cual
enciende una luz de cautela sobre esta efervescencia moderna con el análisis de
datos inescrupuloso.
Vayamos a un ejemplo. Si para evaluar la efectividad de
hacer dieta comparásemos el peso de Alberto -que sigue puntillosamente un
régimen para adelgazar- con el de Manuel -flaco por naturaleza y que en su vida
se preocupó por su alimentación-, muy posiblemente nos dé que Alberto es más
obeso que Manuel, por lo que algún despistado querrá concluir que las dietas no
funcionan, ¿o no es cierto que los que hacen dieta son más gordos? Tampoco
serviría comparar a Alberto antes y después de hacer dieta: posiblemente el
régimen haga bajar de peso a Alberto, pero quizás el descenso se deba tanto a
la dieta como al plan de crossfit que siguió a la par de las indicaciones de su
nutricionista.
En cualquiera de estas dos circunstancias (Alberto y Manuel,
Alberto antes y después de la dieta), estamos comparando peras con manzanas. En
el primer caso, las razones por las que Alberto inicia una dieta son las mismas
por las cuales Manuel no lo hace: uno estaba excedido de peso y el otro, no.
Entonces, la comparación entre Alberto y Manuel refleja tanto el hecho de que
uno hace dieta y el otro no, como que Alberto pesa más que Manuel más allá de
la dieta. En el segundo caso (antes y después) se nos mezclaron los efectos de
la dieta con los de otros esfuerzos que hizo Alberto para bajar de peso.
La evaluación de efectos causales parece estar atada a la
posibilidad de comparar "manzanas con manzanas" y "peras con
peras": Alberto haciendo dieta con Alberto no habiendo hecho dieta, o
Alberto antes y después de hacer dieta pero sin haber hecho ninguna otra cosa
que interfiriese con su peso. "Ser o no ser" dice el famoso
soliloquio de Hamlet, sugiriendo que las comparaciones de "manzanas con
manzanas" son virtualmente imposibles, ya que parecen requerir que existan
Alberto haciendo dieta y también Alberto no haciendo dieta, ser y no ser.
En El Jardín de Senderos que se Bifurcan, Jorge Luis Borges
plantea un laberinto en donde conviven "una infinita trama de tiempos que
se bifurcan, se cortan o secularmente se ignoran" y que "abarca todas
las posibilidades". En el laberinto borgeano es muy fácil evaluar la
efectividad de hacer dieta: se trata de buscar "al Alberto que hizo
dieta" y compararlo con "el Alberto que no hizo dieta", manzanas
con manzanas. Pero, como adelantásemos, la realidad es mucho más difícil ya que
solo una de las circunstancias es observable; es uno o el otro, pero jamás los
dos.
El diseño de experimentos es uno de los grandes logros de la
ciencia moderna. Su esencia consiste en aislar el canal a través del cual una
cosa afecta a la otra. En este sentido, un agrónomo asigna fertilizante a una
parcela y no a la otra, pero garantizando que ambas tengan la misma cantidad de
luz o agua, de modo que, luego del experimento, las diferencias en el
crecimiento de las plantas se deban fundamentalmente al fertilizante. El
experimento es un intento de reconstruir el laberinto borgeano: si está bien
diseñado, es como si una parcela fuese exactamente la otra salvo por el
fertilizante, resultando en una comparación de "peras con peras". La
implementación de experimentos bien diseñados ha permitido avanzar a pasos
agigantados a las ciencias tradicionales como la medicina o la biología, y, con
el rezago esperable, también a las ciencias sociales, incluyendo a la economía.
Sin los cuidados necesarios, big data es tan solo una enorme
muestra de pedazos del laberinto borgeano, de Albertos, Manueles, Martas, Titos
y tal vez miles de millones de personas que hicieron dieta o no, pero nunca,
jamás, de la misma persona que hizo y no hizo dieta.
No existe forma de que big data revele los senderos no
transitados. Por su naturaleza "observacional" (basada en la
observación de comportamientos) solo muestra resultados de acciones y no de sus
correspondientes acciones "contrafácticas". Los terabytes de datos de
usuarios de una autopista tal vez captados por sensores y en forma virtual
pueden decir muchísimo de ellos, pero casi nada de los que deciden no usarla.
Y a los efectos de la política pública, la información de
ambos grupos es crucial. Esta limitación de datos explica por qué es tan
difícil evaluar políticas sociales como la Asignacion Universal por Hijo (AUH):
como no fue asignada al azar, la comparación entre quienes la recibieron y
quienes no, es de peras con manzanas, lo que requiere sofisticados métodos
estadísticos para arribar a una evaluación confiable.
El objetivo central de un experimento es crear información
contrafáctica y no observarla, porque, como ya dijimos, es inobservable.
Entonces, desde el punto de vista de la determinación de causas y efectos, no
existe forma de que big data pueda aportar "todos los datos", porque
solo observa acciones y no contrafácticos.
Esto no elimina el potencial de big data, sino que lo
relativiza. Es el trabajo inteligente del analista el que deberá usar el
potencial de los muchos datos para explorar cuestiones causales. Muy
posiblemente big data ayude considerablemente al diseño de experimentos, a la
construcción de contrafácticos, o a la detección de datos que, sin bien de
origen observacional, se comporten como si hubiesen sido generados por un
experimento y sirvan para entender canales causales. Sí, es raro usar caballos
en épocas de automóviles. Pero aprender relaciones causales mirando datos es
como pretender inferir las leyes de la mecánica viendo pasar autos, por muchos
que sean.
Walter Sosa Escudero.
Profesor de la UdeSa e investigador
principal del Conicet
No hay comentarios:
Publicar un comentario