Tus redes (neuronales) tienen filtraciones
Investigadores de universidades de EE. UU. y Suiza, en colaboración con Google y DeepMind, han publicado un artículo que muestra cómo se pueden filtrar los datos de los sistemas de generación de imágenes que utilizan los algoritmos de aprendizaje automático DALL-E, Imagen o Stable Diffusion. Todos estos sistemas funcionan de la misma manera del lado del usuario: escribes una consulta de texto específica, por ejemplo, “un sillón con forma de aguacate” y a cambio obtienes una imagen generada.
Todos estos sistemas están entrenados con un gran número (decenas o cientos de miles) de imágenes con descripciones preparadas previamente. La idea detrás de estas redes neuronales es que, cuando consumen una gran cantidad de datos de entrenamiento, pueden crear imágenes nuevas y únicas. Sin embargo, la conclusión principal del estudio nuevo es que estas imágenes no siempre son tan únicas. En algunos casos, es posible forzar la red neuronal para que reproduzca casi exactamente una imagen original utilizada previamente para el entrenamiento. Eso significa que las redes neuronales pueden revelar información privada sin saberlo.
Más datos para el “dios de los datos”
El resultado de un sistema de aprendizaje automático en respuesta a una consulta puede parecer mágico para una persona que no es especialista: “¡Vaya, es como un robot que lo sabe todo!” Pero en realidad no hay ninguna magia…
Todas las redes neuronales funcionan más o menos igual: se crea un algoritmo que se entrena con un conjunto de datos, (por ejemplo, una serie de imágenes de perros y gatos) y una descripción de lo que aparece exactamente en cada imagen. Tras la fase de entrenamiento, se muestra al algoritmo una nueva imagen y se le pide que averigüe si es un gato o un perro. De estos humildes comienzos, los desarrolladores de dichos sistemas pasaron a un escenario más complejo: el algoritmo entrenado con montones de fotos de gatos crea a petición una imagen de una mascota que nunca existió. Estos experimentos se llevan a cabo no solo con imágenes, sino también con texto, vídeo e incluso voz: ya hemos escrito sobre el problema de los deepfakes (por el cual los vídeos alterados digitalmente, en su mayoría de políticos o celebridades, parecen decir cosas que en realidad nunca dijeron).
Para todas las redes neuronales, el punto de partida es un conjunto de datos de entrenamiento: las redes neuronales no pueden inventar nuevas entidades de la nada. Para crear una imagen de un gato, el algoritmo debe estudiar miles de fotografías o dibujos reales de estos animales. Hay muchos argumentos para mantener la confidencialidad de estos conjuntos de datos. Algunos de ellos son de dominio público; otros conjuntos de datos son propiedad intelectual de la empresa desarrolladora que invirtió tiempo y esfuerzo considerables en su creación con la esperanza de lograr una ventaja competitiva. Otros, por definición, constituyen información sensible. Por ejemplo, se está experimentando con redes neuronales para diagnosticar enfermedades a partir de radiografías y otras exploraciones médicas. Esto significa que los datos de entrenamiento algorítmico contienen los datos sanitarios reales de personas reales, que, por razones obvias, no deben caer en manos equivocadas.
Difúndelo
Aunque los algoritmos de aprendizaje automático parezcan iguales, en realidad son diferentes. En su artículo, los investigadores prestan especial atención a los modelos de difusión del aprendizaje automático. Funcionan así: los datos de entrenamiento (de nuevo imágenes de personas, coches, casas, etc.) se distorsionan añadiendo ruido. A continuación, se entrena a la red neuronal para que devuelva esas imágenes a su estado original. Este método permite generar imágenes de calidad decente, pero un posible inconveniente (en comparación con los algoritmos de las redes generativas antagónicas o adversariales, por ejemplo) es su mayor tendencia a filtrar datos.
Los datos originales pueden extraerse de ellas al menos de tres formas distintas: En primer lugar, mediante consultas específicas, se puede obligar a la red neuronal a producir -no algo único, generado a partir de miles de imágenes- sino una imagen de origen concreta. En segundo lugar, se puede reconstruir la imagen original aunque sólo se disponga de una parte de ella. En tercer lugar, es posible establecer simplemente si una imagen concreta está contenida o no en los datos de entrenamiento.
Con mucha frecuencia, las redes neuronales son… perezosas y, en lugar de una nueva imagen, producen algo del conjunto de entrenamiento si este contiene múltiples duplicados de la misma imagen. Además del ejemplo anterior con la foto de Ann Graham Lotz, el estudio ofrece otros resultados similares:
Si una imagen se duplica en el conjunto de entrenamiento más de cien veces, existe una probabilidad muy alta de que se filtre en su forma casi original. Sin embargo, los investigadores demostraron formas de recuperar imágenes de entrenamiento que solo aparecieron una vez en el conjunto original. Este método es mucho menos eficiente: de quinientas imágenes probadas, el algoritmo recreó aleatoriamente solo tres de ellas. El método más artístico de atacar una red neuronal implica recrear una imagen de origen utilizando solo un fragmento de ella como entrada.
En esta etapa, dirijamos nuestra atención al problema de las redes neuronales y los derechos de autor.
¿Quién le robó a quién?
En enero de 2023, tres artistas demandaron a los creadores de servicios de generación de imágenes que utilizaban algoritmos de aprendizaje automático.
Alegaban (con razón) que los creadores de las redes neuronales las habían entrenado con imágenes recopiladas en línea sin ningún respeto por los derechos de autor. En efecto, una red neuronal puede copiar el estilo de un artista concreto y privarle así de ingresos. El documento insinúa que en algunos casos los algoritmos pueden, por diversos motivos, incurrir en plagio descarado, generando dibujos, fotografías y otras imágenes casi idénticas a la obra de personas reales.
En el estudio se incluyen recomendaciones para fortalecer la privacidad del conjunto de entrenamiento original:
- Deshacerse de los duplicados.
- Reprocesar las imágenes de entrenamiento, por ejemplo añadiendo ruido o cambiando el brillo; esto hace menos probable la fuga de datos.
- Probar el algoritmo con imágenes de entrenamiento especiales y luego comprobar que no las reproduce con precisión por error.
¿Qué sigue?
La ética y la legalidad del arte generativo plantean sin duda un debate interesante, en el que hay que buscar un equilibrio entre los artistas y los creadores de la tecnología. Por un lado, hay que respetar los derechos de autor. Por otro, ¿es el arte informático tan diferente del humano? En ambos casos, los creadores se inspiran en las obras de colegas y competidores.
Pero volvamos a la realidad y hablemos de seguridad. El documento proporciona un conjunto específico de datos sobre un solo modelo de aprendizaje automático. Extendiendo el concepto a todos los algoritmos similares, llegamos a una situación interesante. No es difícil imaginar un escenario en el que un asistente inteligente de un operador de telefonía móvil entregue información corporativa sensible en respuesta a una consulta del usuario: al fin y al cabo, estaba en los datos de entrenamiento. O, por ejemplo, una consulta con trampa engaña a una red neuronal pública para que genere una copia del pasaporte de alguien. Los investigadores subrayan que estos problemas siguen siendo teóricos por el momento.
Pero otros problemas ya están entre nosotros. Mientras hablamos, la red neuronal de generación de texto ChatGPT se está utilizando para escribir códigos maliciosos reales que (a veces) funcionan. Además, GitHub Copilot está ayudando a los programadores a escribir códigos utilizando una gran cantidad de software de código abierto como entrada. La herramienta no siempre respeta los derechos de autor ni la privacidad de los autores cuyo código terminó en el extenso conjunto de datos de entrenamiento. A medida que evolucionan las redes neuronales, también lo harán los ataques contra ellas, con consecuencias que todavía nadie comprende por completo.