¿Qué es la inteligencia HuMachine?

La esencia del concepto HuMachine es una fusión de big data, aprendizaje automático y la experiencia de nuestros analistas. Pero ¿qué hay tras estas palabras?

La efectividad de nuestros productos se debe al concepto de Inteligencia HuMachine, el cual es la base de la verdadera ciberseguridad. La esencia de la Inteligencia HuMachine es la fusión de tres elementos fundamentales: big data, aprendizaje automático y la experiencia de nuestros analistas. Pero ¿qué hay tras estas palabras? Te lo explicamos sin ponernos muy técnicos.

Big data e inteligencia sobre amenazas

El big data no es una simple base de datos, es una combinación de tecnologías que permiten procesar al instante un gran volumen de información para así extraer inteligencia sobre amenazas. En este caso, la información está relacionada con todos los objetos, estén limpios, sean maliciosos o potencialmente usables para fines maliciosos. Para nuestros fines, el big data es, en primer lugar, una colección de objetos maliciosos; en segundo lugar, también se incluye a Kaspersky Security Network, que entrega constantemente nuevos objetos maliciosos y diferente tipo de información sobre ciberamenazas de todo el mundo. En tercer lugar, el big data se refiere a las herramientas de clasificación que procesan la información.

Una colección de objetos maliciosos
Nos dedicamos a la seguridad informática desde hace más de 20 años y, durante este tiempo, hemos analizado una gran cantidad de objetos. La información sobre ellos está almacenada con protección en nuestras bases de datos. Y cuando hablamos de “objetos”, no nos referimos solo a archivos y trazas de código, sino también a direcciones web, certificados y archivos de ejecución de registro de aplicaciones limpias y maliciosas. Toda esta información no solo se almacena con etiquetas del tipo “peligroso” o “seguro”, sino que también lo está con información sobre las relaciones entre los objetos: de qué página se descargó el archivo, qué otros archivos se descargaron de esa misma web, etc.

Kaspersky Security Network (KSN)

KSN es nuestro servicio de seguridad en la nube. Una de sus funciones es bloquear rápidamente las nuevas amenazas. A su vez, permite que todos los clientes participen incrementando la seguridad global mediante el envío a la nube de metadatos sin información personal sobre amenazas detectadas. Estudiamos cada amenaza detectada desde diferentes perspectivas y añadimos sus rasgos a nuestras bases de datos de amenazas. Con ello, nuestros sistemas pueden detectar con precisión no solo dicha amenaza, sino también las que se le parezcan. Así, nuestra colección recibe información actualizada en tiempo real.

Herramientas de clasificación

Las herramientas de clasificación son tecnologías internas que nos permiten procesar la información que recopilamos y registrar las relaciones que encontremos entre los objetos maliciosos.

La tecnología del aprendizaje automático

Resumir qué es el aprendizaje automático y cómo se usa en Kaspersky Lab no es fácil. Debemos empezar explicando que usamos un enfoque multicapa. Por ello, los algoritmos del aprendizaje automático se utilizan en diferentes subsistemas, a diferentes capas.

Detección estática

Cada día nuestros sistemas reciben cientos de miles de objetos que deben ser analizados y clasificados (como peligrosos o no). Hace ya más de 10 años, sabíamos que no podríamos hacerlo sin automatización. La primera tarea era comprender si un archivo malicioso se parecía a otro que ya tuviéramos, por lo que escribimos una aplicación que analizara toda la colección y, cuando se añadía un nuevo archivo, informaba a nuestros analistas del parecido con otros.

Pronto descubrimos que esto no era suficiente. Necesitábamos una tecnología que permitiera al sistema tomar una decisión y, por ello, desarrollamos una tecnología basada en un árbol de decisiones que funcionaba con nuestra colección de objetos para detectar una selección de criterios y combinaciones específicas que pueden servir como indicadores que definen inequívocamente si un nuevo archivo es peligroso. Mientras se analiza el archivo, un modelo matemático “pregunta” al antivirus una serie de preguntas como estas:

  1. ¿Pesa el archivo más de kilobytes?
  2. Si es así, ¿está comprimido?
  3. Si no, ¿su nombre lo elegiría un humano o no tiene sentido?
  4. Si es lo primero,…

Y la lista de preguntas continúa.

Tras responder a todas estas preguntas, el motor del antivirus recibe el veredicto desde el modelo matemático y este puede ser: “el archivo está limpio” o “el archivo es peligroso”.

Modelo matemático de comportamiento

Siguiendo nuestro principio de seguridad multicapa, nuestros modelos matemáticos también se usan para llevar a cabo detecciones dinámicas. De hecho, un modelo matemático puede analizar el comportamiento de un archivo ejecutable cuando se ejecuta. Es posible desarrollar y habituar el modelo según los principios aplicados a los modelos matemáticos de detección estática, pero mediante el uso de archivos de registro de ejecución como “material de formación”. Sin embargo, hay una gran diferencia. En el terreno, no podemos permitirnos esperar hasta que el código termine de ejecutarse. La decisión se debe tomar tras analizar un mínimo de acciones. En la actualidad, el piloto de esta tecnología, basada en aprendizaje profundo, está obteniendo resultados excelentes.

Experiencia humana

Los expertos en aprendizaje automático están de acuerdo con que no importa lo inteligente que sea un modelo matemático, una persona siempre lo será más, en especial si dicha persona es creativa y puede estudiar cómo funciona dicha tecnología o si se dispone de mucho tiempo para llevar a cabo experimentos y pruebas. Por ello, cada pieza del modelo tiene que ser actualizable, la infraestructura debe funcionar a la perfección y un humano debe supervisar al robot.

Anti-Malware Research (Investigación Antimalware)

Hace unos 20 años, nuestro equipo de investigación antimalware (AMR: Anti-Malware Research) funcionaba sin la ayuda de sistemas automáticos. Hoy en día, muchas amenazas se detectan con sistemas expertos entrenados por nuestros investigadores. En algunos casos, el sistema no puede dar un veredicto inequívoco o piensa que el objeto es malicioso, pero no puede relacionarlo con ninguna familia conocida. Luego, el sistema envía una advertencia al analista encargado y le proporciona varios indicadores para que este tome la decisión final.

Detection Methods Analysis Group (Grupo de Análisis del Método de Detección)

Este es un equipo dedicado que se creó en 2007 específicamente para trabajar en nuestros sistemas de aprendizaje automático. Actualmente, solo el jefe del departamento es un analista de virus experimentado. Los otros empleados son científicos de datos.

Global Research and Analysis Team (GReAT) (Equipo Global de Investigación e Investigación)

Por último, pero no menos importante, hablemos de GReAT. Los investigadores de este equipo investigan las amenazas más complicadas: amenazas persistentes avanzadas, campañas de ciberespionaje, grandes brotes de malware, ransomware y tendencias de los ciberdelincuentes del mundo. Su experiencia única en las técnicas, herramientas y estrategias de los ciberataques nos permite desarrollar nuevos métodos de protección capaces de detener al más complejo de los ataques.

No hemos hablado ni de la mitad de las tecnologías y departamentos involucrados en el desarrollo de nuestras soluciones. Hay otro muchos expertos y métodos de aprendizaje automático que trabajan para protegerte óptimamente, pero queríamos explicar, en especial, el principio de HuMachine Intelligence.

Consejos