En un artículo de la revista Science publicado a mediados de enero, se describe un método no trivial de husmear a los usuarios de teléfonos inteligentes a través de un sensor de luz ambiental.
Todos los teléfonos inteligentes y tabletas cuentan con este componente integrado, al igual que muchos ordenadores portátiles y televisores. Su objetivo principal es detectar la cantidad de luz ambiental en el entorno en el que se encuentra el dispositivo y adecuar el brillo de la pantalla en consecuencia.
De todos modos, primero debemos explicar por qué un atacante usaría una herramienta poco adecuada para obtener imágenes en lugar de la cámara tradicional del dispositivo objetivo. La razón es que estos sensores “inadecuados para la tarea” suelen estar totalmente desprotegidos.
Imaginemos que un atacante engaña a un usuario para que instale un programa malicioso en su teléfono inteligente. El malware se encontrará con ciertas dificultades para acceder a componentes a los que suele dirigirse, como el micrófono o la cámara. Pero ¿al sensor de luz? ¡Pan comido!
Los investigadores demostraron que este sensor de luz ambiental se puede usar en lugar de una cámara; por ejemplo, para obtener una imagen instantánea de la mano del usuario al introducir un PIN en un teclado virtual. En teoría, al analizar dichos datos, es posible reconstruir la contraseña. En esta publicación, explicaremos todos los detalles en palabras simples.
El sensor de luz es una tecnología bastante primitiva; se trata de una fotocélula sensible a la luz que mide el brillo de la luz ambiental varias veces por segundo. Las cámaras digitales utilizan sensores de luz muy similares (aunque más pequeños), pero tienen millones de ellos. La lente proyecta una imagen sobre esta matriz de fotocélulas, se mide el brillo de cada elemento y se obtiene una fotografía digital. Por lo tanto, un sensor de luz podría describirse como la cámara digital más primitiva que existe; su resolución es exactamente de un píxel. ¿Cómo podría algo así capturar lo que sucede alrededor del dispositivo?
Los investigadores emplearon el principio de reciprocidad de Helmholtz, formulado a mediados del siglo XIX. Este principio se utiliza mucho en gráficos por ordenador, por ejemplo, ya que simplifica en gran medida los cálculos. En 2005, el principio constituyó la base del método propuesto de fotografía dual. Tomemos una ilustración de este artículo para poder explicarlo:
Imagina que estás fotografiando objetos sobre una mesa. Una lámpara emite luz sobre los objetos, la luz reflejada incide en la lente de la cámara y el resultado es una fotografía. Nada fuera de lo común. En la ilustración de arriba, la imagen de la izquierda es precisamente eso: una fotografía normal. A continuación, los investigadores, en términos muy sencillos, comenzaron a alterar el brillo de la lámpara y registrar los cambios en la iluminación. Como resultado, recogieron suficiente información para reconstruir la imagen de la derecha, tomada desde el punto de vista de la lámpara. No hay ninguna cámara en esta posición y nunca la hubo; pero sobre la base de las mediciones, la escena se pudo reconstruir con éxito.
Lo más interesante de todo es que este truco ni siquiera requiere una cámara. Un fotorresistor sencillo servirá, como el de un sensor de luz ambiental. Un fotorresistor (o “cámara de un solo píxel”) mide los cambios en la luz reflejada por los objetos, y estos datos se utilizan para crear una fotografía de ellos. La calidad de la imagen será baja, y se deben tomar cientos o miles de medidas.
Volvamos al estudio y al sensor de luz. Los autores del artículo utilizaron una tableta Samsung Galaxy View bastante grande con una pantalla de 17″. En la pantalla de la tableta, se mostraron varios patrones de rectángulos en blanco y negro. Se colocó un maniquí frente a la pantalla, como si fuera un usuario que introduce algo con el teclado en pantalla. El sensor de luz capturó los cambios de brillo. Con varios cientos de medidas como esta, se creó una imagen de la mano del maniquí. Es decir, los autores aplicaron el principio de reciprocidad de Helmholtz para obtener una fotografía de la mano, tomada desde el punto de vista de la pantalla. De forma bastante eficaz, los investigadores convirtieron la pantalla de la tableta en una cámara de muy baja calidad.
Es cierto que la imagen no es la más nítida. La fotografía de arriba a la izquierda muestra lo que se necesitaba capturar: por un lado, la palma abierta del maniquí; por el otro, cómo el “usuario” parece tocar algo en la pantalla. Las imágenes del centro son una “fotografía” reconstruida con una resolución de 32 × 32 píxeles, en la que no se ve casi nada: hay demasiado ruido en los datos. Sin embargo, con la ayuda de algoritmos de aprendizaje automático, se filtró el ruido para crear las imágenes de la derecha, donde podemos distinguir la posición de una mano de la otra. Los autores del artículo dan otros ejemplos de gestos típicos que las personas hacen cuando usan la pantalla táctil de una tableta. O más bien, ejemplos de cómo lograron “fotografiarlos”:
Entonces, ¿se puede aplicar este método en la práctica? ¿Es posible supervisar cómo interactúa el usuario con la pantalla táctil de un teléfono inteligente o una tableta? ¿Cómo escribe texto en el teclado en pantalla? ¿Cómo introduce los datos de la tarjeta de crédito? ¿Cómo abre las aplicaciones? Por fortuna, no es tan sencillo. Ten en cuenta los títulos sobre las “fotografías” en la ilustración de arriba. Muestran lo lento que funciona este método. En el mejor de los casos, los investigadores pudieron reconstruir una “fotografía” de la mano en poco más de tres minutos. Se tardó 17 minutos en capturar la imagen de la fotografía anterior. La vigilancia en tiempo real a tales velocidades está fuera de discusión. También está claro ahora por qué la mayoría de los experimentos usaban la mano de un maniquí: un ser humano simplemente no puede mantener su mano inmóvil durante tanto tiempo.
Sin embargo, esto no descarta la posibilidad de que se mejore el método. Reflexionemos sobre el peor de los casos. Si la imagen de cada mano no se puede obtener en tres minutos, sino en, quizás, medio segundo; si el resultado en pantalla no son unas extrañas figuras en blanco y negro, sino un vídeo, un conjunto de fotografías o una animación de interés para el usuario; y si el usuario hace algo que valga la pena espiar, entonces el ataque tendría sentido. Pero incluso si se dan todas las condiciones, no tiene mucho sentido. Todos los esfuerzos de los investigadores se debilitan por el hecho de que si un atacante logró colocar un malware en el dispositivo de la víctima, existen formas mucho más sencillas de engañarla para que introduzca una contraseña o el número de una tarjeta de crédito.
No es la primera vez en la que analizamos este tipo de investigaciones (ejemplos anteriores: uno, dos, tres, cuatro), pero sí es la vez que tenemos más dificultades para imaginar este ataque en la vida real.
Todo lo que podemos hacer es maravillarnos ante la belleza del método propuesto. Esta investigación sirve como otro recordatorio de que los dispositivos que parecen ser familiares y discretos a nuestro alrededor pueden albergar funcionalidades inusuales y menos conocidas.
Dicho esto, para aquellas personas a quienes les preocupa esta posible violación de la privacidad, la solución es sencilla. Estas imágenes son de baja calidad debido a que el sensor de luz toma medidas con bastante poca frecuencia: 10-20 veces por segundo. Los datos de salida también carecen de precisión. Sin embargo, eso solo es relevante para convertir el sensor en una cámara. Para su objetivo principal, medir la luz ambiental, esta tasa es incluso demasiado alta. Podemos “distorsionar” aún más los datos transmitiéndolos, digamos, cinco veces por segundo en lugar de 20. Para hacer coincidir el brillo de la pantalla con el nivel de luz ambiental, esto es más que suficiente. Pero espiar a través del sensor, algo ya improbable, se volvería imposible.