¿Alguna vez te has preguntado cómo sabemos con quién estamos hablando por teléfono? Evidentemente, no solo se trata del nombre que aparece en pantalla. Si escuchamos una voz desconocida cuando nos llaman desde un número guardado, sabemos de inmediato que algo anda mal.
Para determinar con quién estamos hablando, analizamos inconscientemente el timbre de voz, la forma de hablar y la entonación. Pero, ¿cómo de fiable es nuestro propio oído en la era digital de la inteligencia artificial? Según las últimas noticias, no siempre podemos confiar en lo que escuchamos, porque las voces pueden falsificarse mediante deepfake.
Ayuda, estoy en problemas
En la primavera de 2023, unos estafadores de Arizona intentaron extorsionar a una mujer por teléfono. La mujer escuchó la voz de su hija de 15 años pidiendo ayuda antes de que un hombre desconocido tomara el teléfono y exigiera un rescate, todo mientras se escuchaban los gritos de su hija de fondo. La madre estaba segura de que la voz era realmente la de su hija. Afortunadamente, pudo averiguar enseguida que su hija estaba bien, lo que la llevó a darse cuenta de que estaba siendo víctima de estafadores.
No se puede probar al 100 % que los atacantes hayan utilizado un deepfake para imitar la voz de la adolescente. Tal vez se trató de una estafa más tradicional y la calidad de la llamada, lo inesperado de la situación, el estrés y la imaginación de la madre la llevaron a pensar que estaba escuchando algo que en realidad no estaba escuchando. Pero aunque no se hayan utilizado tecnologías de redes neuronales en este caso, los deepfakes pueden ocurrir y, de hecho, ocurren, y a medida que evolucionan, se vuelven cada vez más convincentes y peligrosos. Para luchar contra el abuso de la tecnología deepfake por parte de los delincuentes, debemos comprender cómo funciona.
¿Qué son los deepfakes?
La inteligencia artificial deepfake (“deep learning” [aprendizaje profundo] + “fake” [falso]) ha crecido a gran velocidad en los últimos años. El aprendizaje automático se puede utilizar para crear imitaciones convincentes de imágenes, vídeos o audios. Por ejemplo, las redes neuronales se pueden usar en fotografías y vídeos para reemplazar el rostro de una persona por otro conservando las expresiones faciales y la iluminación. Si bien inicialmente estas falsificaciones eran de baja calidad y fáciles de detectar, a medida que los algoritmos evolucionaron, los resultados se volvieron tan convincentes que ahora es difícil distinguirlos de la realidad. En 2022, se estrenó en Rusia el primer programa de televisión deepfake del mundo, donde los deepfakes de Jason Statham, Margot Robbie, Keanu Reeves y Robert Pattinson interpretan los personajes principales.
Conversión de voz
Hoy nos concentraremos en la tecnología que se utiliza para crear deepfakes de voz. Esto también se conoce como conversión de voz (o “clonación de voz” si crea una copia digital completa). La conversión de voz se basa en codificadores automáticos, un tipo de red neuronal que primero comprime los datos de entrada (parte del codificador) en una representación interna compacta y luego aprende a descomprimirlos desde esta representación (parte del decodificador) para restaurar los datos originales. De esta manera, el modelo aprende a presentar datos en un formato comprimido al mismo tiempo que resalta la información más importante.
Para hacer deepfakes de voz, se introducen dos grabaciones de audio en el modelo, y la voz de la segunda grabación se convierte en la primera. El codificador de contenido se usa para determinar qué se dijo en la primera grabación y el codificador del orador se usa para extraer las principales características de la voz de la segunda grabación, es decir, cómo habla la segunda persona. Las representaciones comprimidas de qué se debe decir y cómo se dice se combinan, y el resultado se genera mediante el decodificador. Por lo tanto, se usa la voz de la segunda grabación para expresar lo que se dice en la primera grabación.
Hay otros enfoques que utilizan codificadores automáticos; por ejemplo, los que utilizan redes generativas antagónicas (GAN) o modelos de difusión. La investigación sobre la creación de deepfakes cuenta con el apoyo particular de la industria del cine. Piénsalo: con los deepfakes de audio y vídeo, es posible reemplazar las caras de los actores en películas y programas de televisión, y doblar películas con expresiones faciales sincronizadas en cualquier idioma.
Cómo se hace
Mientras investigábamos las tecnologías deepfake, nos preguntamos cómo de difícil sería hacer el deepfake de nuestra propia voz. Resulta que hay muchas herramientas gratuitas de código abierto para trabajar con la conversión de voz, pero no es tan fácil obtener un resultado de calidad con ellas. Se necesitan experiencia en programación Python y buenas habilidades de procesamiento, e incluso así la calidad está lejos del ideal. Además del código abierto, también existen soluciones patentadas y de pago.
Por ejemplo, a principios de 2023, Microsoft anunció un algoritmo que podía reproducir una voz humana valiéndose de un ejemplo de audio de apenas tres segundos de duración. Este modelo también funciona con varios idiomas, por lo que incluso puedes escucharte a ti mismo hablando en otro idioma. Todas estas tecnologías parecen prometedoras, pero hasta ahora solo se encuentran en la etapa de investigación. La plataforma ElevenLabs permite a los usuarios hacer deepfakes de voz sin ningún esfuerzo: simplemente debes cargar una grabación de audio de la voz y las palabras que se deben decir, y eso es todo. Por supuesto, tan pronto como se corrió la voz, todos empezaron a jugar con esta tecnología de diferentes maneras.
La batalla de Hermione y un banco demasiado confiado
Dentro del marco de la ley de Godwin, se creó un deepfake de Emma Watson leyendo Mein Kampf y otro usuario utilizó la tecnología de ElevenLabs para “piratear” su propia cuenta bancaria. ¿Suena espeluznante? Para nosotros sí, en especial cuando sumamos las historias de terror populares sobre estafadores que recolectan telefónicamente muestras de voces pidiéndole a la gente que diga “sí” o “confirmar” haciéndose pasar por un banco, una agencia gubernamental o un servicio de encuestas y, después, les roban dinero usando la autorización por voz.
Pero, en realidad, las cosas no están tan mal. En primer lugar, se necesitan unos cinco minutos de grabaciones de audio para crear una voz artificial en ElevenLabs, por lo que un simple “sí” no es suficiente. En segundo lugar, los bancos están al tanto de estas estafas, por lo que la voz solo se puede usar para iniciar ciertas operaciones que no están relacionadas con la transferencia de fondos (por ejemplo, para verificar el saldo de su cuenta). Por lo tanto, los estafadores no pueden robar dinero de esta manera.
A su favor, ElevenLabs reaccionó al problema con rapidez: volvió a redactar las normas del servicio, prohibió a los usuarios gratuitos (es decir, anónimos) crear deepfakes basados en sus propias voces subidas y bloqueó cuentas vinculadas a quejas sobre “contenido ofensivo”.
Si bien estas medidas pueden ser útiles, no resuelven el problema del uso de deepfakes de voz con fines sospechosos.
¿De qué otra manera se usan los deepfakes en las estafas?
La tecnología deepfake en sí misma es inofensiva, pero en manos de los estafadores puede convertirse en una herramienta peligrosa que ofrece muchas oportunidades de engaño, difamación o desinformación. Afortunadamente, no se han producido estafas masivas que involucren tecnologías de alteración de voz, pero ha habido varios casos de alto perfil que involucran deepfakes de voz.
En 2019, unos estafadores utilizaron esta tecnología para engañar a una empresa de energía con sede en el Reino Unido. En una conversación telefónica, el estafador se hizo pasar por el director ejecutivo de la empresa matriz en Alemania y solicitó una transferencia urgente de 220 000 € a la cuenta de una empresa proveedora. Una vez realizado el pago, el estafador llamó dos veces más: la primera vez para tranquilizar al personal de la oficina del Reino Unido e informar que la empresa matriz ya había enviado un reembolso, y la segunda vez para solicitar otra transferencia. Las tres veces, el director ejecutivo del Reino Unido estuvo absolutamente seguro de que estaba hablando con su jefe porque reconoció tanto su acento alemán como su tono y forma de hablar. La segunda transferencia no se envió solo porque el estafador se equivocó y llamó desde un número austríaco en lugar de uno alemán, lo que hizo que el director ejecutivo del Reino Unido sospechara.
Un año después, en 2020, unos estafadores usaron deepfakes para robarle hasta 35 000 000 $ a una empresa japonesa no identificada (el nombre de la empresa y la cantidad total de bienes robados no se revelaron en la investigación).
Se desconoce qué soluciones (de código abierto, de pago o incluso las propias) utilizaron los estafadores para falsificar las voces, pero en los dos casos mencionados anteriormente las empresas sufrieron consecuencias graves por el fraude de deepfake.
¿Qué nos depara el futuro?
Las opiniones sobre el futuro de los deepfakes son variadas. En la actualidad, la mayor parte de esta tecnología está en manos de grandes corporaciones y su disponibilidad para el público es limitada. Pero, como demuestra la historia de modelos generativos mucho más populares como DALL-E, Midjourney y Stable Diffusion, y más aún con los grandes modelos de lenguaje (¿alguien mencionó ChatGPT?), es posible que aparezcan tecnologías similares en el dominio público en el futuro cercano. Esto quedó confirmado por una reciente filtración de correos internos de Google en los que los representantes del gigante de Internet declaran que temen perder la carrera de la IA con las soluciones abiertas. Obviamente, esto dará como resultado un aumento en el uso de deepfakes de voz, incluso para el fraude.
El paso más prometedor en el desarrollo de los deepfakes es la generación en tiempo real, que garantizará el crecimiento explosivo de los deepfakes (y el fraude basado en ellos). ¿Te imaginas una videollamada con una persona cuyo rostro y voz sean completamente falsos? Sin embargo, este nivel de procesamiento de datos requiere una gran cantidad de recursos a los que solo las grandes corporaciones pueden acceder, por lo que las mejores tecnologías seguirán siendo privadas y los estafadores no podrán seguirles el ritmo a los profesionales. El alto estándar de calidad también ayudará a los usuarios a aprender a identificar fácilmente las falsificaciones.
Cómo protegerse
Volvamos a nuestra primera pregunta: ¿podemos confiar en las voces que escuchamos (es decir, si no son las voces en nuestra cabeza)? Probablemente sea exagerado vivir paranoicos y pensar en palabras clave secretas para usar con amigos y familiares; sin embargo, en situaciones más graves, esta paranoia podría ser adecuada. Si todo se desarrolla de acuerdo al escenario pesimista, la tecnología deepfake en manos de estafadores podría convertirse en un arma temible en el futuro, pero aún hay tiempo de prepararse y crear métodos fiables de protección contra la falsificación: ya hay muchas investigaciones sobre los deepfakes y las grandes empresas están desarrollando soluciones de seguridad. De hecho, ya hemos hablado en detalle sobre las formas de combatir los deepfakes de vídeo aquí.
Por ahora, la protección contra las falsificaciones de IA está comenzando, por lo que es importante tener en cuenta que los deepfakes son solo otro tipo de ingeniería social avanzada. El riesgo de ser víctima de un fraude como este es pequeño, pero existe, por lo que vale la pena conocerlo y tenerlo en cuenta. Si recibes una llamada extraña, presta atención a la calidad del sonido. ¿Es en un tono monótono antinatural, es ininteligible o hay ruidos extraños? Comprueba siempre la información a través de otros canales y recuerda que las principales herramientas de los estafadores son la sorpresa y del pánico.