Aprendizaje federado contra las amenazas en el correo electrónico

Nuestro método de formación de modelos de detección de spam te permite mantener tu privacidad sin perder eficacia.

¿Cuál es la forma más rápida de encontrar una amenaza, ya sea phishing o spam, en tu correo electrónico? Los asuntos muy técnicos y otros marcadores indirectos de los mensajes no deseados pueden señalarte el camino, pero no debemos olvidar lo más importante: el contenido. Uno podría pensar que es lo primero que hay que analizar; después de todo, el texto es lo que utilizan los ciberdelincuentes o los publicistas sin escrúpulos para manipular a los destinatarios. Sin embargo, la tarea no es tan sencilla. Aunque antes bastaba con tan solo analizar las firmas, ahora es necesario escanear el texto mediante algoritmos de aprendizaje automático. Y si vas a enseñarle al modelo de aprendizaje automático a clasificar mensajes correctamente, necesitas alimentarlo con una cantidad considerable de mensajes, lo cual no siempre es posible por razones de privacidad. Pero nosotros hemos encontrado una solución.

¿Por qué el análisis de firmas ya no resulta eficaz?

Hace diez años, era relativamente fácil detectar los correos no deseados basándose en el texto del mensaje, ya que los ciberdelincuentes utilizaban las mismas plantillas: el texto de los mensajes de spam (y phishing) apenas cambiaba. Ahora, los ciberdelincuentes mejoran continuamente la eficacia de sus correos y utilizan millones de ganchos: novedades en videojuegos, series de TV o modelos de smartphone, noticias políticas e incluso situaciones de emergencia (por ejemplo, la abundancia de phishing y de spam relacionados con el COVID-19). Esta gran variedad de temas complica el proceso de detección. Además, los atacantes pueden variar el texto en una oleada de correos para evadir los filtros del correo electrónico.

Por supuesto, los métodos que se basan en las firmas siguen funcionando, aunque su éxito depende de encontrar un texto que alguien más ya haya clasificado como no deseado o perjudicial. No pueden trabajar de forma proactiva, ya que los ciberdelincuentes pueden evitar estos filtros con tan solo cambiar el texto del correo. Por tanto, la única forma de lidiar con este problema es mediante el aprendizaje automático.

¿Cuál es el inconveniente con el aprendizaje?

En los últimos años, los métodos de aprendizaje automático han mostrado buenos resultados a la hora de solucionar una gran variedad de problemas. Al analizar una enorme cantidad de datos, los modelos aprenden a tomar decisiones y a encontrar características comunes y relevantes en un flujo de información. Utilizamos unas redes neurales entrenadas en asuntos muy técnicos, junto con el protocolo DMARC, para detectar las amenazas en los correos electrónicos. Entonces, ¿por qué no podemos hacer lo mismo con el texto del mensaje?

Como ya hemos comentado, los modelos necesitan una gran cantidad de datos. En este caso, los datos consisten en mensajes de correo electrónico y no solo los maliciosos; también necesitamos mensajes legítimos. Sin ellos, sería imposible enseñarle a un modelo a distinguir un ataque de una correspondencia legítima. Contamos con varias trampas que interceptan todo tipo de correos no deseados (nosotros los utilizamos para hacer firmas), pero conseguir mensajes legítimos para el proceso de aprendizaje es una tarea más complicada.

Normalmente, los datos se recogen en servidores de aprendizaje centralizado. Pero cuando hablamos del texto o contenido, existen una serie de dificultades adicionales: los e-mails pueden contener datos confidenciales, así que almacenarlos y procesarlos en su forma original sería inaceptable. Entonces, ¿cómo conseguimos una recopilación lo suficientemente grande de correos legítimos?

El aprendizaje federado

Hemos solucionado ese problema mediante el método de aprendizaje federado, que elimina por completo la necesidad de recopilar mensajes de correo y que, en su lugar, entrena los modelos de una forma descentralizada. El entrenamiento de modelos tiene lugar directamente en los servidores del correo del cliente y el servidor central recibe solamente las claves de los modelos de aprendizaje automático, pero no el texto del mensaje. En el servidor central, los algoritmos combinan los datos con la versión que resulta del modelo y entonces lo enviamos de nuevo a las soluciones del cliente, donde el modelo procede a analizar nuevamente el flujo de mensajes.

Aquí os dejamos con una descripción ligeramente simplificada: antes de que el modelo recién entrenado se active con casos reales, pasa por varias iteraciones de entrenamiento adicional. Es decir, dos modelos trabajan de forma simultánea en el servidor de correo electrónico: uno en modo de entrenamiento, el otro en modo activo. Después de varios viajes al servidor central, el modelo en entrenamiento reemplaza al activo.

Resulta imposible recuperar el texto de los mensajes; de esta forma se asegura la privacidad durante el procesamiento. Sin embargo, el entrenamiento con mensajes de correo legítimos mejora perceptiblemente la calidad del modelo de detección.

De momento hemos puesto a prueba esta estrategia para clasificar spam en Kaspersky Security for Microsoft Office 365 y los resultados están siendo asombrosos. Pronto, ampliaremos las aplicaciones de uso y se utilizará para identificar otras amenazas como el phishing o el BEC.

Consejos