miércoles, agosto 10, 2011

La revolución de los datos sociales: una nueva ciencia para interpretar los comportamientos sociales

El libro “Pulse: The New Science of Harnessing Internet Buzz to Track Threats and Opportunities” de Douglas Hubbard (anteriormente había publicado otro de gran interés y que no he tenido ocasión de leer. Se titula “How to Measure Anything: Finding the Value of Intangibles in Business“) describe y analiza un nuevo panorama de la ciencia por la capacidad que se tiene de generar análisis de esas huellas digitales. El le llama Pulse. También en la enseñanza tendrá una capacidad disruptiva y con la capacidad de ser un “trigger” para el cambio.

Un libro recomendado y que pongo algunas de los párrafos con los que abren el Capítulo 1 “An Emerging Science: What is this new thing?”. Esta ciencia emergente que analiza los datos de manera transparente y con la capacidad de poder visualizarlos en tiempo real. Una nueva era para la medición y predicción de la sociedad.

La primera mitad del siglo XXI está viendo el surgimiento de un nuevo tipo de instrumentos científicos que permitan medir las tendencias más importantes en la sociedad. Más personas pasan más tiempo haciendo más cosas en línea y al hacerlo, dejan tras de sí un gran registro digital. Mediante la combinación de esas “huellas digitales” tanto sociólogos como psicólogos, economistas e incluso los médicos están aprendiendo a medir los aspectos de nuestra sociedad que de otra manera sería prácticamente invisible. El análisis de estas huellas digitales generará nuevos descubrimientos en todos los ámbitos de la investigación. El volumen de esos datos será detectar nuevos patrones en los mercados, en la opinión pública e incluso la salud y la seguridad.

Datos disponibles al público acerca de la frecuencia de determinadas búsquedas en Google se han utilizado para rastrear los brotes de gripe, la confianza de los consumidores, o el niveles de desempleo más rápido que las autoridades del gobierno son capaces de hacerlo. El análisis de millones de “tweets” en Twitter se ha utilizado para predecir la popularidad de una película, las aprobaciones de las presidenciales a nivel político e incluso los movimientos del mercado de valores y la bolsa. Anuncios en sitios como Craigslist se correlacionan con las ejecuciones hipotecarias y el desempleo. Los datos recogidos de forma pasiva en los teléfonos móviles pueden ser utilizados para rastrear patrones de tráfico, enfermedades, e incluso daños después de un terremoto. Y esto es sólo el principio.

En educación a la hora de establecer metodologías cuya base es la red (Networked Learning) y establecidas en ecosistemas abiertos generan multitud de tráfico y acciones interactivas sin una delimitación clara (veáse MOOC). En estos casos hacer la evaluación del propio aprendizaje de los estudiantes es tarea ingente, o, metafóricamente, matar elefantes con un matamoscas. Por eso creo que es revolucionario y disruptivo con respecto a las concepciones de medida anteriores. Esto es un hecho más potente y disruptivo de lo que fue para la educación la web social. El problema es que vivimos en un constante devenir de formas disruptivas. Por esto, algunos autores le han llamado “la revolución de los datos sociales (Social data revolution). Por eso, incluso los científicos más reservados describen este fenómeno como una revolución en el estudio de la humanidad y en la previsión de la conducta humana. Estas herramientas cambiará fundamentalmente la forma en que los insights serán encontrados entre el análisis esos datos cruzados. En última instancia, esta nueva fuente de datos (datos inteligentes + sensores + tiempo real) influirá en cómo algunas de las decisiones más importantes son tomadas por individuos, empresas y gobiernos.

En la crisis actual, por ejemplo hay las suficientes “señales” (palabra clave para esta era de los datos) como para ver que deben producirse cambios reales y disruptivos para que no sea una hecatombe. Sólo recientemente los investigadores han ido descubriendo la manera de seguir las tendencias económicas, los brotes de gripe y la opinión pública mediante el uso de los datos a disposición del público por una cantidad ingente de usuarios de Internet y de telefonía móvil. Estas huellas digitales dejadas por los pueblos del mundo, ya que utilizan la Internet y los teléfonos móviles para interactuar por Internet, buscar información, conectarse con otras personas y jugar en línea. Este conjunto de datos es lo que le llaman los “big data”. Es la primera oportunidad para que muchas de las ciencias sociales para trabajar con una cantidad de estadísticas detalladas que rivaliza e incluso supera los conjuntos de datos de, por ejemplo, la física de partículas o la astronomía.

Al igual que el pronóstico del tiempo se hace más preciso con mayor número de sensores, así los equipos de computación y análisis han mejorado, por eso los pronósticos del “clima” de la sociedad será de corte científico. La analogía con el mapa del tiempo funciona a varios niveles. El valor real de los mapas del tiempo no está en ver los patrones climáticos. Y cuanto más macroscópico sea la focalización del mapa, más capaces seremos de ver las tendencias. Del mismo modo, muchas de las amenazas a las que nos estamos enfrentando en este siglo como son el terrorismo, el caos financiero, las epidemias, podrían ser mejor vistas (sus insights) de antemano si tuviéramos una especie de mapa del tiempo a nivel macro de la sociedad. Observaciones individuales acerca de dónde vive alguien o la salida de una pequeña empresa no suele decir casi nada sobre las grandes tendencias. No se puede ver el tamaño y la forma de una tormenta al examinar unas gotas de lluvia, de manera similar, usted no puede ver grandes cambios en la economía o la sociedad por buscar sólo en sus otros vecinos o compañeros de trabajo. Sin embargo, un gran número de estos puntos de datos pueden mostrarnos los patrones a gran escala.

El Internet se ha utilizado para grandes oportunidades de negocio, como un depósito de todo conocimiento humano, como el medio de la colaboración de todo el mundo y como la mejor herramienta del diálogo público. Sin embargo, vemos que hay un déficit en la propia Internet, ya que es casi totalmente subutilizada como un instrumento de medición de la sociedad. El principal método de seguimiento de las grandes tendencias en la sociedad sigue siendo el estudio y, en el caso de los negocios, el sistema de informes financieros. Negocios y gobiernos a entender la importancia de la utilización de estas encuestas tradicionales para informar a las estrategias críticas. En 2002, el Gobierno de los EE.UU. era el único gasto de más de $ 4 mil millones por año
en las encuestas para medir la economía y otros aspectos de la sociedad. El sector comercial se gasto alrededor de $ 15 mil millones por año en el mismo.

Los métodos tradicionales de encuestas implican estudiar cuidadosamente el diseñado que permite un análisis estadístico sencillo. Desafortunadamente, son costosos, lentos, y aún con las metodologías, a menudo riguroso no captan lo que está sucediendo realmente. Ellos están plagadas de las tasas de respuesta pequeños, y en algunos casos lo que se dice en las encuestas tiene poco que ver con la realidad. Estos métodos suelen tardar semanas o meses para que el informe se termine, muchas veces esto es mucho después de que los datos hubieran sido útiles. Internet es ya en muchos órdenes de magnitud más grande que todos los datos recopilados por los gobiernos y las empresas que utilizan las encuestas tradicionales. La red social Facebook procesa por día 25 terabytes de datos. Esto es aproximadamente 1.000 veces la cantidad de datos por correo electrónico de EE.UU. La encuesta más grande del mundo-Censo de los EE.UU. produce menor cantidad de datos que esta en una década. En 2010, el servicio de microblogging de Twitter dio a la Biblioteca del Congreso 167 terabytes de datos que representan más de 6 mil millones de “tweets”. Y estas fuentes aún sólo forman parte de los datos digitales públicamente visibles
que dejamos atrás.

Los datos de Internet son, por supuesto, no estructurados y en algunos aspectos más difíciles de analizar que una encuesta especialmente diseñada. Afortunadamente, los nuevos métodos para el análisis de estos datos científicos están evolucionando incluso cuando el volumen de datos continúa creciendo a un ritmo endiablado. El registro digital de carácter colectivo y de datos interaccionados para ver nuestro comportamiento ha crecido hasta un punto en que puede reflejar algo útil acerca de los usuarios del sistema. Ahora podemos ver el equivalente del mapa del tiempo que depara la opinión pública (trend topics), la economía, nuestra salud y nuestras ansiedades. Por todo ello, el autor intenta ponerle nombre a esta ciencia en proceso emergente. Habla de análisis de datos sociales, de cibersociología, de huella digital, de psicohistoria (retomando el concepto de Isaac Asimov), pero el que más le convence (por lo llamativo del término) es el de La revolución de los datos sociales” [slides y web]. Por todo ello podemos definirlo el término revolución social de Datos (RSD) como el cambio en los patrones de la comunicación humana (en la que conjugan en la comunicación virtual por primera vez en la historia la comunicación de “todos a todos”) hacia un mayor intercambio de información personal y sus implicaciones relacionadas, hecha posible por el auge de las redes sociales en la primera década de este siglo. Mientras que las redes sociales se utilizaron en los primeros días para compartir fotos en privado y mensajes privados, la tendencia posterior de la gente es el intercambio de información personal de manera más amplia se ha traducido en cantidades sin precedentes de información pública. Y esto mezclado con la geolocalización hace posible nueva evolución en la generación de redes sociales.

Esta fuente de datos de gran tamaño y actualizada con frecuencia se ha descrito como un nuevo tipo de instrumento científico de las ciencias sociales. Varios investigadores independientes han utilizado los datos sociales para hacer un “nowcast” (como si se tratara de una predicción meteorológica a corto plazo, pero aquí es en lo social, con la amalgama de datos del contexto que queremos analizar) y prever las tendencias tales como el desempleo, los brotes de gripe, los gastos de viajes y política opiniones de una manera que es más rápido, más preciso y más barato que los informes estándar del gobierno o las encuestas de Gallup, por ejemplo.

No hay comentarios:

Publicar un comentario