miércoles, 23 de julio de 2014

No son solo las 'cookies', los colores que ves en tu pantalla también te delatan

A estas alturas, raro es el internauta que no está más o menos familiarizado con el término cookie. Desde el año 2002, las empresas españolas están obligadas a informar en sus webs de que utilizan este tipo de archivos de texto que recopilan información sobre qué hemos estado haciendo en la red antes de entrar en esa página, y desde el año 2012, tienen además que obtener nuestro consentimiento tácito o explícito para hacerlo. ¿Se han preguntado por qué de unos meses a esta parte la red se ha llenado de avisos sobre cookies? Pues esta es la razón, y aún así la ley no se está cumpliento correctamente.
Sin embargo, no son solo las cookies las que tratan de averiguar datos sobre nuestra actividad. En internet (como en todas partes), la información es poder y sobre todo beneficio económico. No se trata de ningún secreto que las empresas quieren mostrarnos la publicidad y los servicios que mejor encajen con nosotros según nuestras aficiones, intereses, gustos y costumbres. Cuanto más sepan de nostros, más eficazmente lo harán.
Desde luego no aporta tanta información como las cookies, pero a cambio resulta mucho más difícil de detectar y bloquear, y además no entra dentro de los sistemas que la ley española obliga a declarar
Una nueva herramienta tecnológica ha entrado en la carrera por aprender del internauta. Se trata de un sistema denominado canvas fingerprinting, o lienzo de toma de huellas, como podríamos traducirlo. Desde luego no aporta tanta información como las cookies, pero a cambio resulta mucho más difícil de detectar y bloquear, y además no entra dentro de los sistemas que la ley española obliga a declarar, de forma que no es necesario indicar su uso a los internautas.
'La red nunca olvida'
En el curso de una investigación sobre modos de seguimiento en la red, denominada La red nunca olvida, investigadores de la Universidad de Lovaina, en Bélgica, y de Princeton (aquí puedes consultar el paper) descubrieron que entre las cien mil páginas web más visitadas del mundo, un 5,5% de ellas incluyen el canvas fingerprinting en su código, en total unas 5.559. No parecen muchas, pero hay algunas de renombre entre ellas: la de la Casa Blanca (y otras muchas de la administración estadounidense), la de Telefonica, la de Starbucks, la del instituto Sundance (organizador del festival de cine con el mismo nombre) y la web pornográfica Youporn, por citar solo unas cuantas (aquí está toda la lista).
La clave de esta tecnología está en algo tan aparentemente inocente como son los colores que está usted viendo en este momento, mientras lee Teknautas o navega por cualquier otra página. La forma en que su ordenador, móvil o tableta pintan los píxeles de las webs en las que entra no es la misma en la que lo hacen todos los demás. Cada versión de cada sistema operativo, cada versión de cada navegador, cada tipo de dispositivo, tarjeta gráfica, librería de fuentes... Aunque todos entremos en la misma página, no todos vemos los colores, las imágenes ni las fuentes iguales.

Marc Juárez, miembro del equipo de la Universidad de Lovaina que ha participado en el estudio, explica así los pasos que sigue el algortimo de canvas fingerprinting: primero, se muestra la imagen en un elemento de la página web que está disponible desde la última versión de HTML, llamado canvas; luego, esa imagen, que podría tener un formato corriente (.jpg, por ejemplo), se convierte a un formato de texto completo, para facilitar su envío al servidor; esa codificación podría resultar en un archivo de texto demasiado largo, de forma que se comprime de una manera determinada, para hacerlo más fácil de gestionar pero igualmente identificativa.
Para una misma imagen, los colores que se muestran en la pantalla son distintos, aunque la pantalla en sí interviene poco
"Es decir, que las diferencias introducidas por el dispositivo quedan representadas implícitamente en la imagen", explica Juárez. "Para una misma imagen, los colores que se muestran en la pantalla son distintos, aunque la pantalla en sí interviene poco. La mayor diferencia es introducida por la tarjeta gráfica y el motor de procesamiento del explorador". 
Puesto que cada imagen será distinta, el resultado también lo será, permitiendo asignar a cada usuario un número que lo identifique. Eso ayuda a construir un perfil del usuario, que se usa para dirigierle esta o aquella publicidad, intentando dar en la diana.
AddThis, el mayor productor de 'canvas'
Los autores del estudio anteriormente citado descubrieron que de esas 5.559 páginas que incluían el script de canvas, la abrumadora mayoría, 5.282 de ellas, lo habían obtenido de la compañía AddThis. Richard Harris, jefe ejecutivo de AddThis reconoce en un artículo de Mashable que comenzaron a experimentar con este nuevo sistema a principios de año, como una forma de sustituir a las cookies tradicionales. Asegura que de momento los datos que han obtenido de los internautas solo se han utilizado de forma interna dentro de sus proyectos de investigación y desarrollo.
Comenzaron a experimentar con este nuevo sistema a principios de año, como una forma de sustituir a las 'cookies' tradicionales. Asegura que de momento los datos que han obtenido de los internautas solo se han utilizado de forma interna dentro de sus proyectos de investigación y desarrollo
Aunque AddThis sea el principal proveedor de este software, lo que ha hecho esta empresa solo ha sido terminar de mejorar el producto. Fue en mayo de 2012 cuando informáticos de la Universidad de California, San Diego, descubrieron que un componente de la programación web, denominado canvas (lienzo), permitía crear un nuevo tipo de huella de la actividad en la red, extrayendo datos distintos de los que recogen este tipo de herramientas, aprovechando las diferencias de renderizado de cada entorno y sin que el usuario se diese cuenta. Al mes siguiente, el Proyecto Tor, enfocado a reforzar la privacidad y el anonimato de los internautas, incluía en su navegador la opción de notificar a los usuario cuándo una web intentaba utilizar este componente y de responder con una imagen en blanco.
Un año después, el programador ruso Valentin Vasilyev colgaba libremente en la red el código de rastreo que él mismo había elaborado, añadiendo el componente basado en canvas. La compañía para la que trabajaba, sin embargo, renunció a utilizarlo. "Recogimos varios millones de huellas, pero decidimos no usarlo porque su precisión es solo del 90%". 
Diálogo mostrado por el navegador Tor ante las peticiones de 'canvas'Diálogo mostrado por el navegador Tor ante las peticiones de 'canvas'
AddThis cogió el código de Vasilyev y y añadió ciertas mejoras. Entre ellas, utilizar un pangrama, una frase que utiliza todas las letras del abecedario (en este caso en inglés), para determinar de qué forma éstas varían en uno u otro servidor. “Cwm fjordbank glyphs vext quiz” es concretamente la utilizada por AddThis. La compañía asegura que insertó este código solo en una pequeña parte de los 13 millones de páginas en las que está presente su tecnología, y que en cualquier caso está pensando en terminar antes de tiempo su investigación "porque no es suficientemente identificativa". 
"Está usted utilizando Firefox en Windows"
Pero mientras tanto, por si alguien quiere hacerse una idea (si bien solo aproximada) sobre la capacidad de acierto de esta herramienta, puede probar aquí. En esta página, el autor del texto ha tratado de demostrar que es posible identificar por lo menos la versión del navegador y el sistema operativo del usuario solamente por la diferencia en la forma de pintar una web. Se trata de una versión de prueba, por lo que el propio autor advierte de que quizá no dé con la combinación correcta, aunque en el caso de Teknautas acertó varias combinaciones distintas sin fallar: "Es muy probable que esté utilizando Firefox en Windows".
Es decir, que no hay una solución al problema sin que toda la funcionalidad de la página se vea afectada
Como ya hemos explicado, esta recogida de datos de los internautas, que no resulta tan completa como otros sistemas, es a cambio más difícil de evitar si está insertada en una página web. "Todo este proceso solo se hace mediante JavaScript (un lenguaje de programación que se ejecuta en el navegador del usuario). Las defensas y protecciones que existen actualmente inhabilitan parcial o completamente JavaScript, empeorando la experiencia del usuario. Es decir, que no hay una solución al problema sin que toda la funcionalidad de la página se vea afectada", concluye Juárez.