No hace mucho, escribimos sobre los métodos que Mordechai Guri y sus compañeros de la Universidad Ben-Gurión idearon para extraer información de un dispositivo que no estuviera conectado a Internet y que, a su vez, estuviera físicamente aislado de la red. En la conferencia Black Hat USA 2020, otro investigador de la Universidad Ben-Gurión presentó un informe sobre un tema relacionado. Ben Nassi habló sobre un método de escucha visual que él y sus colegas llaman Lamphone.
A continuación, te contamos cómo funciona Lamphone, pero comencemos con un breve análisis de la historia del problema.
¿Cómo se puede ver el sonido?
El micrófono láser es una tecnología que graba el sonido de forma remota utilizando los llamados métodos visuales. Esta técnica es bastante sencilla.
Las personas que escuchan una conversación dirigen un rayo láser que opera en el espectro infrarrojo (es decir, invisible para el ojo humano) en una superficie adecuada (generalmente el vidrio de una ventana) en la habitación donde se lleva a cabo la conversación. El rayo se refleja en la superficie y golpea el receptor. Las ondas sonoras crean vibraciones en la superficie del objeto, que a su vez cambian el comportamiento del rayo láser reflejado. El receptor registra los cambios, que se convierten en una grabación de sonido de la conversación.
Esta tecnología se ha estado utilizando desde la época de la Guerra Fría y ha aparecido en muchas películas de espías, por lo que probablemente lo hayas visto representado en alguna de ellas. Hay muchas empresas que producen dispositivos ya preparados para su uso en la escucha secreta con láser, y su rango operativo declarado se extiende a 500 o incluso 1000 metros. Sin embargo, si te preocupa ser el objetivo de una escucha láser, tenemos dos buenas noticias: en primer lugar, los micrófonos láser son muy caros y, en segundo lugar, los fabricantes solo venden micrófonos láser a agencias gubernamentales (o eso dicen).
Sin embargo, según Nassi, la naturaleza activa de los micrófonos láser es un serio inconveniente. Para que esa forma de espionaje funcione, hay que “iluminar” una superficie con un rayo láser, por lo que un detector de infrarrojos podría descubrirlo.
Hace varios años, un grupo de investigadores del Instituto de Tecnología de Massachusetts propuso un método alternativo de “grabación visual” que era completamente pasivo. Su idea era básicamente la misma: las ondas sonoras crean vibraciones en la superficie de un objeto. Y estas vibraciones, por supuesto, se pueden registrar.
Para registrar las vibraciones, los investigadores utilizaron una cámara de alta velocidad a varios miles de fotogramas por segundo. Al comparar los fotogramas de la cámara (con la ayuda de un ordenador), pudieron replicar el sonido de la secuencia de fotogramas de vídeo.
Sin embargo, ese método también presenta un gran inconveniente. Los recursos informáticos necesarios para convertir toda la gran cantidad de información visual de la cámara de alta velocidad en sonido fueron extraordinarios. Incluso utilizando una estación de trabajo extremadamente potente, los investigadores del Instituto de Tecnología de Massachusetts necesitaron de 2 a 3 horas para analizar una grabación de vídeo de 5 segundos, por lo que esta estrategia no sirve para captar conversaciones sobre la marcha.
Cómo funciona Lamphone
Nassi y sus colegas han ideado una nueva técnica de “escucha visual” que llaman Lamphone. La idea principal del método es utilizar una bombilla (de ahí el nombre de la técnica) como objeto desde el que se pueden capturar las vibraciones provocadas por el sonido.
Una bombilla no solo es un objeto muy común, sino que también es brillante. Por lo tanto, quien use las vibraciones de una bombilla no necesita desperdiciar recursos informáticos en analizar cambios extremadamente sutiles en la imagen. Todo lo que debe hacer es dirigir un potente telescopio hacia la bombilla y este dirigirá el flujo de luz de la bombilla a un sensor electro-óptico.
La bombilla no emite la luz en diferentes direcciones de forma perfectamente uniforme (curiosamente, esta irregularidad también varía dependiendo del tipo de bombilla, siendo bastante alta en las bombillas incandescentes y LED, pero mucho más baja en las fluorescentes). Esta irregularidad provoca que las vibraciones de la bombilla (generadas por ondas sonoras) alteren levemente la intensidad del flujo de luz que capta el sensor electroóptico. Y esos cambios son lo suficientemente perceptibles para grabar. Después de registrar los cambios y realizar una serie de transformaciones simples, los investigadores pudieron restaurar el sonido de la “grabación de luz” resultante.
Para probar su método, los investigadores instalaron un dispositivo de escucha en un puente peatonal a 25 metros de la ventana de la sala de pruebas, en el que se reproducía el sonido a través de un altavoz. Al apuntar un telescopio a una bombilla de la habitación, los investigadores pudieron registrar las variaciones de luz y convertirlas en una grabación de sonido.
Las grabaciones resultaron ser bastante comprensibles. Por ejemplo, Shazam identificó con éxito las canciones que sonaron en la prueba, “Let It Be” de los Beatles y “Clocks” de Coldplay, y el servicio de reconocimiento de voz de Google transcribió correctamente las palabras de Donald Trump en uno de los discursos de su campaña.
¿Lamphone presenta una amenaza práctica?
Nassi y sus colegas han logrado desarrollar un método realmente funcional de “escucha visual”. Y, lo que es más importante, el método es completamente pasivo y, por lo tanto, ningún detector puede registrarlo.
Debes tener también en cuenta que, a diferencia del método iniciado por los investigadores del Instituto de Tecnología de Massachusetts, los cálculos para decodificar las grabaciones de Lamphone son extremadamente simples. Además, dado que el procesamiento no requiere grandes recursos informáticos, Lamphone se puede utilizar en tiempo real.
Sin embargo, Nassi admite que, durante el experimento, el sonido en la sala de pruebas se reprodujo a un volumen muy elevado. Por lo tanto, por el momento, los resultados del experimento pueden ser principalmente de interés teórico. Por otro lado, no debemos subestimar la simplicidad de los métodos utilizados para convertir la “grabación de luz” en sonido. Esta técnica podría refinarse aún más utilizando algoritmos de aprendizaje automático, por ejemplo, que destacan en este tipo de tareas.
Ahora, los investigadores evalúan la viabilidad actual de aplicar esta técnica en la práctica como ni extremadamente difícil ni fácil, sino algo intermedio. Sin embargo, prevén que el método se volverá potencialmente más práctico, si alguien puede aplicar algoritmos sofisticados para convertir las lecturas del sensor electro-óptico en grabaciones de sonido.