Crédito: Shutterstock
¿Cuán grande es una pizza grande? Una rápida consulta a
Google dice que una pizza grande debe medir como mínimo 35 centímetros de
diámetro. ¿Cuál es el máximo tiempo tolerable para llegar tarde a una boda?
"Media hora", responde con idéntica vehemencia la misma fuente. ¿Cuán
grande es una base de datos para que sea considerada "de big
data"? Y aquí el icónico buscador hace agua. "Si no entra en
Excel, es big data", respondió hace poco en las redes sociales
un reconocido programador. Una frase que muchos interpretaron en forma
peligrosamente literal.
Big data es un término difuso, que refiere al
fenómeno de datos masivos provenientes de interactuar con tecnologías
interconectadas, como celulares, tarjetas de créditos, redes sociales,
etcétera. El volumen es lo primero que salta a la vista de la revolución de
datos, pero la naturaleza disruptiva del fenómeno va mucho más allá del tamaño,
al punto tal que new data o right data tal
vez sean caracterizaciones más felices.
Pero aun cuando la auténtica innovación de big data proviniese
de la masividad, cabe cuestionarse si realmente más es mejor y en qué sentido.
En una encuesta o experimento científicamente diseñado, más es mejor porque,
diseño riguroso mediante, más datos es más de lo mismo, de la misma fuente de
información. Por ejemplo, tirar una moneda repetidas veces permite aprender
cada vez con más precisión que las chances de que salga cara son 50%. "Más
de lo mismo" significa que se tira siempre la misma moneda y que no se la
aprende a tirar en los sucesivos tiros, de modo que cada uno de los
lanzamientos agrega el mismo tipo de información que la de cualquier tiro,
anterior o posterior.
Pero uno de los secretos mejor escondidos de esta lógica es
que la tasa a la que la precisión aumenta cae abruptamente con la cantidad de
datos. Es decir, la precisión siempre mejora, pero esta ganancia es cada vez
más pequeña; una suerte de versión estadística de la "ley de rendimientos
marginales decrecientes" de la economía.
Por ejemplo, en una encuesta correctamente diseñada, si con
1000 encuestados el margen de error es de más/menos 3,16%, para duplicar la
precisión (léase, bajar el error a la mitad) es necesario cuadruplicar la
cantidad de datos. Entonces, desde esta perspectiva, si la promesa de big
data es de una lluvia de datos, es como si la cantidad adicional de
información se desplomase abruptamente luego del primer chaparrón, aun cuando
continúe diluviando datos eternamente. Sí, más es mejor, pero cada vez menos,
mucho menos.
Para peor, el paradigma espontáneo de big data es
casi la negación del ejercicio de lanzar una moneda, o, si vamos al caso, de
una encuesta o experimento científico. En la analogía de la moneda, big
data es como si dispusiésemos de millones de lanzamientos de monedas
distintas (y posiblemente cargadas) y en donde varios lanzadores han aprendido
a favorecer un resultado. Es decir, los datos de big data no
son "más de lo mismo". Una encuesta en Twitter puede recoger muchas
más respuestas que un sondeo tradicional, pero estos datos están
"mediados" por la decisión de seguir o no a alguien en esa red social
y de acceder a responder o no la encuesta, además de que los que siguen a alguien
posiblemente tengan muchos elementos en común: todo esto en las antípodas del
"más de lo mismo" detrás de las ventajas de una encuesta o
experimento científico.
Y esto explica por qué una buena parte de la práctica
científica de la economía todavía descansa en bases de datos que, en lo
numérico, suenan irrisorias en comparación con los millones de datos de big
data. A modo de ejemplo, consideremos el trabajo de Raj Chetty, Nathaniel
Hendren y Lawrence Katz, posiblemente el más citado de los últimos 20 años, y
publicado en el American Economic Review, para muchos
la revista más prestigiosa de la profesión.
El estudio analiza el efecto causal del barrio en el cual
los niños crecen. Comparar la performance de una persona que creció en un
barrio marginal con otra que lo hizo en una zona más favorecida es una
comparación de peras con manzanas: a quien creció en un barrio más pudiente
posiblemente le vaya mejor por razones que van más allá de las relacionadas
estrictamente con el barrio en el que creció. Tampoco funciona la estrategia de
comparar "antes y después", es decir, cómo le fue a un joven luego de
que se mudase de un barrio marginal a uno más rico, porque, nuevamente, se
mezclan los efectos de mudarse de barrio con los de cualquier otro factor que haya
ocurrido simultáneamente (haber conseguido un trabajo, haber ganado la lotería,
etcétera).
A fines de aislar el canal puro del entorno en el que los
niños crecen, los autores recurrieron a una base de datos proveniente de un
experimento que asigna lugares de vivienda a través de un mecanismo aleatorio,
similar al que se usa en los protocolos de la biología o la agronomía para
asignar pacientes o no a un tratamiento. Así, la muestra analizada se conformó
con tan solo 13.213 personas, que suenan a nada en comparación con la cantidad
de seguidores en Twitter que hoy tiene cualquier celebrity menor.
Unos pocos datos, de una fuente confiable y adecuados a la pregunta de interés
(como los del contundente estudio de Chetty y sus coautores), pueden contener
mucha más información que la proveniente de la anarquía de big data.
Consecuentemente, la contribución de big data no
necesariamente viene de la masividad, sino de la disponibilidad de nuevos
datos, antes inexistentes, independientemente de que sean muchos o pocos. A modo
de ejemplo, un trabajo reciente de Liran Einav, Dan Knoepfle y Johnathan Levin
utiliza datos de la empresa Ebay para aislar el efecto de los impuestos a las
ventas. Este trabajo aprovecha la secuencia de acciones (clics) conducentes a
comprar un artículo online. El potencial comprador se enfrenta a
diferentes precios de un artículo de interés, y luego de haber atravesado
algunas etapas, se le es revelado el impuesto a las ventas, dependiendo de su
locación geográfica y de la del vendedor.
Este "experimento natural" aporta información
antes inexistente sobre el efecto de los impuestos sobre las ventas. Los datos
utilizados para el análisis son en realidad un subconjunto muy pequeño de todas
las interacciones en Ebay, pero lo suficientemente grandes como para aislar
apropiadamente el canal a través del cual los impuestos influyen en las ventas.
Es decir, el aporte de big data en este caso no es simplemente
de "muchos datos" sino de datos no disponibles a través de fuentes
tradicionales como encuestas o registros administrativos.
Como en tantos órdenes de la vida, en materia de análisis de
datos el tamaño importa poco en comparación con su calidad. Para peor,
cuando big data no es "más de lo mismo" la masividad
solo aporta un mecanismo peligroso para cometer peores errores y más rápido. El
verdadero aporte de big data en la ciencia social tiene que
ver con la promesa de que el océano de datos sea capaz de aislar datos que
sirvan a los fines de las preguntas relevantes, sean pocos o muchos.
¿Y cuántos datos son suficientes como para decir que una
base de datos es "de big data"? Basta recordar que, en
1806, el enorme Carl Friedrich Gauss dio con el famosísimo método de mínimos
cuadrados aplicándolo a una muestra de tan solo 4 observaciones planetarias.
No hay comentarios:
Publicar un comentario