sábado, marzo 03, 2018

Desafíos en el mundo de las mediciones: el caso Netflix y los índices de pobreza


La firma de entretenimientos desarrolló su sistema predictivo para hacer recomendaciones a los usuarios; con una lógica similar, el Banco Mundial lanzó un torneo para diseñar, con algoritmos, indicadores sociales.

"El futuro ya no es lo que era" dijo el escritor británico Robert Graves. Y algo similar tienen que haber pensado los directivos de Netflix, cuando notaron que su viejo negocio de reparto de DVD por correo mutaba en el monstruo de películas y series online de la actualidad.

En 2006, Netflix sospechaba que las técnicas de aprendizaje automático podían mejorar sustancialmente su viejo sistema de recomendaciones (Cinematch), basado en herramientas estadísticas estándar. El objetivo final era automatizar lo que todos hacemos cuando nos quedamos cortos de series o películas: acudir a amigos o a las redes sociales diciendo algo así como "acabo de ver Mindhunter, Trapped y Wallander, ¿cuál me recomiendan?". La tarea colectiva que hacemos es resolver un problema de "doble cercanía" de películas y personas: gente que nos conoce nos recomienda series que se parecen a las que vimos, y que sospechan que nos gustarán. Que el sistema funcione significa que luego de verla, la serie o película recomendada efectivamente nos gustó.

Si hay una tarea en la cual se luce el combo de big data y aprendizaje automático es en estas cuestiones de "apareamiento". Consecuentemente, el instinto de los directivos de Netflix fue acudir a la comunidad de científicos de datos, esta suerte de "profesionales de la estadística, pero con chupines rojos y barba tupida", como dice una chanza maliciosa que circula entre los estadísticos tradicionales. Y así es como, en octubre de 2006, se lanzó el "desafío Netflix del millón de dólares". Sí, un millón de dólares para quien lograra mejorar la performance predictiva del modelo Cinematch en más de un 10%.

El problema no era menor. En 2006 Netflix tenía unos 7,5 millones de suscriptores y una oferta de 1500 series y películas. O sea que se trataba de predecir unos 11.250 millones de ratings: uno por cada película y suscriptor. La "semilla" para esta tarea eran las evaluaciones que ya habían hecho los suscriptores de las películas y series que vieron. Si organizáramos esta información en una tabla de 7,5 millones de filas (una por cada suscriptor) y 1500 columnas (una por película o serie), y registráramos en cada celda la evaluación que cada usuario hizo de las películas y series que vio, notaríamos que esta planilla está virtualmente vacía: son muy pocas las películas que una persona ve en relación con el total de la oferta, y aún menos las que se ha dignado evaluar.

La tarea del viejo Cinematch era rellenar toda la tabla de recomendaciones: qué puntaje le daría cualquier suscriptor a cualquier película. Con la tabla llena, solo se trata de recomendar las películas con puntaje más alto y ver qué es -palabras más, palabras menos- lo que está detrás de las listas de recomendaciones que recibimos cuando nos conectamos a Netflix. Y este es el desafío que se lanzó a la comunidad de científicos de datos, a modo de competencia abierta: llenar todas las predicciones, para todas las películas y usuarios. Cualquiera podía anotarse, tanto en forma individual como en equipos. Y a tal fin, Netflix puso a disposición una base completa de sus propios datos de películas, suscriptores y puntajes.

La idea de organizar competencias abiertas para resolver un problema predictivo pegó fuerte. A la fecha, hay numerosos torneos predictivos en formato similar al de Netflix; la gran mayoría en el ámbito privado. Y con el rezago esperable, las competencias predictivas llegaron recientemente al ámbito de la economía social.

Hace muy poco el Banco Mundial lanzó un torneo llamado "Pover-T Tests", que convoca a científicos de datos de todo el mundo a diseñar algoritmos para la medición de la pobreza. El espíritu de la convocatoria es idéntico al de Netflix. El Banco Mundial ofrece una base de datos que los equipos deben usar para diseñar sus algoritmos, los cuales son evaluados con otra base de datos, reservada especialmente para esta tarea.

La medición de la pobreza es una tarea compleja, que en su enfoque más simple (el de "línea de pobreza") consiste en clasificar a un hogar como pobre si sus ingresos están por debajo de la línea de pobreza: el valor de una canasta de bienes y servicios que debería poder comprar para dejar de ser pobre. Esta tarea demanda recabar periódicamente ingresos y precios de todos los bienes de la canasta, lo cual requiere un costoso sistema de encuestas, como las que en nuestro país lleva a cabo periódicamente el Indec. El objetivo del ejercicio convocado por el Banco Mundial es explorar la posibilidad de diseñar un algoritmo que permita llevar a cabo esta medición sin tener que acudir a encuestas tan costosas.

Otra competencia reciente se refiere a los Objetivos de Desarrollo del Milenio de las Naciones Unidas. En el año 2000, los países miembros de las Naciones Unidas fijaron una serie de objetivos de desarrollo, en relación con varias dimensiones del bienestar, incluyendo la pobreza, la salud y la igualdad de género, entre otros. La competencia consiste en predecir la evolución de varios indicadores relacionados con estos objetivos para un plazo de 2 y 5 años.

La convocatoria de Netflix fue un éxito rotundo: atrajo a unos 20.000 equipos de más de 150 países. Y el final fue "de bandera verde". Al finalizar la competencia y luego de un mes de minuciosos chequeos y chusmeríos de todo tipo en las redes sociales, Netflix anunció que dos equipos habían alcanzado exactamente la misma mejora con respecto al algoritmo Cinematch. Y tal como lo establecían las reglas del concurso, el millón de dólares fue para el equipo BellKor's Pragmatic Chaos, por haber entregado su algoritmo tan solo 20 minutos antes que su competidor más cercano.

Llamativamente, la recompensa para el ganador de la competencia de predicción de pobreza es de solo US$15.000. Muchísimo menos que la de Netflix, pero bastante más que la de los objetivos del milenio, cuyos organizadores dicen explícitamente en su sitio web que es "solo por diversión".

Esta diferencia de premios posiblemente sea una triste alegoría del minúsculo espacio que ocupan las cuestiones sociales en relación con las frivolidades del espectáculo. Pero quizá se deba a que las complejidades de la cuestión social requieren una pericia política y comunicacional ajena a la mera cuestión algorítmica. Y tal vez, las acaloradas discusiones recurrentes sobre la salud social de nuestro país sean la más relevante de las competencias.

Walter Sosa Escudero. Profesor (Udesa); investigador del Conicet

No hay comentarios:

Publicar un comentario