Pobreza en Corrientes. El INDEC dijo que la ciudad de Corrientes es la más pobre del país. Villa de pescadores al este de la ciudad 10-04-19 / Foto: Marcelo Manera
En 1961 el genial humorista Landrú publicó en la revista Tía
Vicenta un desopilante “test para saber si usted es hombre o caballo”, que tras
unas breves preguntas (por ejemplo, “¿Qué prefiere comer, una suprema a la
Maryland o una bolsa de alfalfa?” o “¿Qué hace cuando entra en su oficina: dice
buenos días o relincha?”), permitía resolver la cuestión en forma inequívoca.
Se trataba de una tomada de pelo a la proliferación de tests de la época, en
particular en las así llamadas “revistas del corazón” (“Diez preguntas para
saber si le gustás”).
Sesenta años después, los cuestionarios de los que se mofaba
Landrú han sido reemplazados por big data y algoritmos, que parecen tener la
respuesta a todo. Así, en el “top 20” de preguntas que la gente le hace a
Google conviven cuestiones filosóficas (“qué es el amor”) con otras no tanto
(“cómo hacer un nudo de corbata”).
Sin embargo, llama la atención que varias cuestiones
delicadas permanezcan todavía ajenas a los datos masivos y a los algoritmos.
Una de ellas es la medición de la pobreza. Esta cuestión es el equivalente
estadístico de querer envolver un triciclo. Los problemas empiezan con la
mismísima indefinición de qué significa ser pobre, noción multidimensional y
que involucra a disciplinas que van desde la economía a la biología, pasando
por la antropología, la sociología, la política y la medicina, entre otras.
Resuelta la cuestión de qué es la pobreza, resta lidiar con una tal vez más
compleja: cómo medirla.
La solución comúnmente adoptada es el enfoque de líneas:
pobre es una persona cuyos ingresos no alcanzan para comprar un conjunto de
cosas que se consideran necesarias para no serlo. El valor de esta canasta de
bienes y servicios es la línea de pobreza. Entonces, la aplicación del método
requiere de encuestas periódicas que midan los ingresos de las personas y los
precios de la canasta.
Claramente, se trata de una simplificación que se adopta por
razones de conveniencia práctica. Nadie cree que los ingresos representen
cabalmente el bienestar, ni que la línea de pobreza pueda dividir tan
tajantemente a los pobres del resto. La popularidad del enfoque de líneas se
debe a la facilidad que ofrece para computar y comunicar datos, y a que conduce
a comparaciones válidas entre países o períodos. Y, además, a que las alternativas
más conceptualmente apropiadas son notoriamente más costosas. Así y todo, su
implementación demanda un enorme esfuerzo institucional de encuestas
sistemáticas de ingresos y precios, razón por la cual las cifras oficiales de
pobreza están disponibles solo dos veces por año y para ciertas áreas urbanas.
Ante estas enormes dificultades cabe preguntarse si no será hora de confiar
esta tarea a big data y sus algoritmos mágicos, que parece que todo lo pueden.
Si bien hay una considerable cantidad de estudios, son
todavía muy incipientes. Joshua Blumenstock, de la Universidad de California en
Berkeley, es tal vez el principal experto en estudiar la pobreza con
tecnologías intensivas en datos. En 2015 publicó un influyente estudio en la
revista Science, donde muestra que es posible monitorear la pobreza en Ruanda
sobre la base de la intensidad de uso de teléfonos celulares. Algunas
experiencias más recientes apelan a imágenes satelitales, como el estudio de
Neil Jean (un joven estudiante de la Universidad de Stanford), también
publicado en Science, o a la geolocalización de artículos de Wikipedia en
África subsahariana, como en el reciente trabajo de Evan Sheenan y sus
coautores, también de Stanford.
Además de datos de fuentes “alternativas” como imágenes
satelitales, redes sociales o sensores, todos estos estudios usan métodos
modernos de la ciencia de datos, como deep learning, árboles decisorios y
técnicas de procesamiento de lenguaje natural, que se han incorporado al
herramental de la ciencia social y que muy lentamente aparecen en las
currículas de disciplinas como la economía, la sociología o la ciencia
política.
En la Argentina hay varias experiencias de uso de datos
masivos para el estudio de la pobreza. El sociólogo Germán Rosati, investigador
del Conicet y de la Universidad Nacional de San Martín, es un claro ejemplo de
esta nueva generación de científicos sociales. En un trabajo reciente, Rosati
usa métodos de machine learning para predecir datos faltantes en la Encuesta
Permanente de Hogares. Y en un estudio junto a Tomás Olego y Antonio Vázquez
Brust, construye un mapa de vulnerabilidad sanitaria que combina datos
tradicionales con registros administrativos de hospitales a lo que agregan
datos “chupados” de la web de programas sanitarios y gobiernos locales.
Otros estudios locales son los que se usan para predecir la
pobreza, como el de Bruno Cardinale, Christian Chagalj y Noelia Romero, de la
Universidad de San Andrés, o los que publica en las redes sociales Martín
González Rozada, de la Universidad Torcuato Di Tella. Un reciente estudio de
Wendy Brau, Victoria Anauati y el autor de esta nota discute con detalle todas
estas contribuciones.
Son varias las ventajas de big data en relación a la
medición de la pobreza. La disponibilidad de datos inmediatos y de fuentes
alternativas permitiría una medición más “granular” de esta cuestión, todavía
limitada a grandes aglomerados urbanos. Las áreas rurales o las zonas altamente
vulnerables todavía escapan al “foco” de la medición tradicional. También permitiría
aumentar la frecuencia de las mediciones, si bien es discutible si esto es
deseable, dada la naturaleza estructural de la pobreza. Concretamente, aun
cuando sea técnicamente factible, es posible que una medición semanal o mensual
de la pobreza venga acompañada de una considerable dosis de “ruido”, en el
sentido en que a un paciente sano se le recomienda que no se mida la presión
arterial cada media hora, sino en intervalos más espaciados.
Tal vez la principal contribución de big data se relacione
con la posibilidad de medir la vulnerabilidad más allá del ingreso y a costos
razonables, dejando atrás las principales razones pragmáticas por las que se
insiste con el enfoque de líneas. Big data permite monitorear aspectos
cruciales del bienestar como los vínculos sociales, el acceso a los servicios
de salud, educación o seguridad, o la dinámica del mercado laboral, muchas
veces esquivos a las encuestas tradicionales.
A la luz del enorme potencial de big data en la medición de
la pobreza, la lentitud en la adopción masiva de estas ideas se explica no por
dejadez ni por pereza burocrática, sino porque las dificultades son de magnitud
idéntica a las ventajas. La estadística oficial no es un mero ejercicio
algorítmico sino un acuerdo conceptual, político y comunicacional. A la falta
de consenso acerca de qué significa ser pobre, la estadística oficial responde
con una o varias medidas que surgen de sopesar las ventajas y desventajas de
distintos métodos, a fin de que existan herramientas estables que permitan medir
la evolución del fenómeno y, fundamentalmente, comparar la pobreza en distintas
regiones y periodos. Es una tarea que requiere una esperable estabilidad
conceptual y algorítmica, para evitar caer en confrontar peras con manzanas. Es
solo cuestión de imaginar el escándalo mediático que ocurriría con la
comparación de las cifras de pobreza si los datos, más que venir de encuestas
sistemáticas, se originaran en información online de empresas que aparecen y
desaparecen, o en redes sociales que súbitamente dejan de existir o pasan de
moda.
Angus Deaton, premio Nobel de economía en 2015, dijo que
“las líneas de pobreza son construcciones tan políticas cómo científicas”. La
principal limitante en la adopción de big data para medir la pobreza no son ni
los datos ni los algoritmos, sino la creación de consensos para su uso
confiable. Porque más allá de sus propiedades técnicas, no hay peor estadística
que aquella en la que nadie cree.
No hay comentarios:
Publicar un comentario