Las Limitaciones de la IA y el Aprendizaje Automático en el Software Antivirus

Emsisoft
19 mar 2020
5 Min. de lectura

Cuando se trata de software antivirus, algunos proveedores elogian el aprendizaje automático como la bala de plata al malware, pero ¿cuánta verdad hay en estas afirmaciones?

En la publicación de hoy, veremos cómo se usa el aprendizaje automático en el software antivirus y si realmente es la solución de seguridad perfecta.

¿Cómo funciona el aprendizaje automático?

En la industria antivirus, el aprendizaje automático se usa generalmente para mejorar las capacidades de detección de un producto. Mientras que la tecnología de detección convencional se basa en reglas de codificación para detectar patrones maliciosos, los algoritmos de aprendizaje automático crean un modelo matemático basado en datos de muestra para predecir si un archivo es "bueno" o "malo".

En términos simples, esto implica el uso de un algoritmo para analizar los puntos de datos observables de dos conjuntos de datos creados manualmente: uno que incluye solo archivos maliciosos y otro que incluye solo archivos no maliciosos.

Luego, el algoritmo desarrolla reglas que le permiten distinguir los archivos buenos de los malos, sin recibir instrucciones sobre qué tipos de patrones o puntos de datos deben buscar. Un punto de datos es cualquier unidad de información relacionada con un archivo, incluida la estructura interna de un archivo, el compilador que se utilizó, los recursos de texto compilados en el archivo y mucho más.

El algoritmo continúa calculando y optimizando su modelo hasta que termina con un sistema de detección preciso que (idealmente) no clasifica los programas buenos como malos y los programas malos como buenos. Desarrolla su modelo cambiando el peso o la importancia de cada punto de datos. Con cada iteración, el modelo mejora ligeramente en la detección precisa de archivos maliciosos y no maliciosos.

El aprendizaje automático puede ayudar a detectar nuevo malware

El aprendizaje automático ayuda al software antivirus a detectar nuevas amenazas sin depender de firmas. En el pasado, el software antivirus dependía en gran medida de las huellas digitales, que funciona mediante referencias cruzadas de archivos contra una enorme base de datos de malware conocido.

El principal defecto aquí es que los verificadores de firmas solo pueden detectar malware que se ha visto antes. Ese es un punto ciego bastante grande, dado que se crean cientos de miles de nuevas variantes de malware todos los días.

El aprendizaje automático, por otro lado, puede ser entrenado para reconocer los signos de archivos buenos y malos, lo que le permite identificar patrones maliciosos y detectar malware, independientemente de si se ha visto antes o no.

Las limitaciones del aprendizaje automático

Si bien el aprendizaje automático puede ser una herramienta muy efectiva, la tecnología tiene sus limitaciones.

Potencial de explotación

Una de las debilidades clave del aprendizaje automático es que no comprende las implicaciones del modelo que crea, simplemente lo hace. Simplemente utiliza el método más eficiente y probado matemáticamente para procesar datos y tomar decisiones.

Como se señaló anteriormente, el algoritmo se alimenta con millones de puntos de datos, pero sin que nadie le diga específicamente qué puntos de datos son indicadores de malware. Eso depende del modelo de aprendizaje automático para descubrir por sí mismo.

El resultado de esto es que ningún humano puede saber realmente qué puntos de datos podrían, de acuerdo con el modelo de aprendizaje automático, indicar una amenaza. Podría ser un único punto de datos o una combinación específica de 20 puntos de datos. Un atacante motivado podría descubrir cómo el modelo usa estos parámetros para identificar una amenaza y usarla en su beneficio. Cambiar un punto de datos específico y aparentemente no relevante en un archivo malicioso podría ser suficiente para engañar al modelo para que clasifique el malware como seguro y debilite todo el modelo.

Para corregir el problema, el proveedor tendría que agregar el archivo manipulado al conjunto de datos y volver a calcular todo el modelo, lo que podría llevar días o semanas. Desafortunadamente, esto aún no solucionaría el problema subyacente: incluso después de que el modelo fue reconstruido, solo sería cuestión de tiempo hasta que el atacante encontrara otro punto de datos o una combinación de puntos de datos que pudieran usarse para engañar al sistema de aprendizaje automático.

Eso es exactamente lo que sucedió en julio de 2019, cuando los investigadores de Skylight Cyber descubrieron que un popular producto de seguridad basado en IA había incluido en la lista blanca ciertos archivos para evitar la activación de falsos positivos. Las cadenas de código en estos archivos de la lista blanca tuvieron mucho peso en el sistema de puntuación del algoritmo, lo que significaba que estaban casi garantizados para anular el proceso natural de toma de decisiones del algoritmo. Cuando el modelo encontró el código contenido en los archivos de la lista blanca, marcó el archivo como seguro, incluso si estaba incrustado en un archivo malicioso. Como resultado, los investigadores pudieron socavar el algoritmo simplemente tomando cadenas de código de un archivo de juegos de la lista blanca no malicioso y adjuntándolos a un archivo malicioso.

Como señalaron los investigadores, este tipo de ataque no habría sido posible si el producto utilizara tecnologías de protección adicionales, como un escáner de firmas, que no se basa en algoritmos o heurística, que detecta amenazas basadas en el comportamiento en lugar de los parámetros de un archivo.

Requiere un conjunto de datos grande y bien etiquetado

Los sistemas de aprendizaje automático son tan buenos como los datos que se les proporcionan. La capacitación de un modelo eficaz requiere una enorme cantidad de entradas de datos, cada una de las cuales debe etiquetarse correctamente. Estas etiquetas ayudan al modelo a comprender ciertas características de los datos (por ejemplo, si un archivo es limpio, malicioso o potencialmente no deseado).

Sin embargo, la capacidad del modelo para aprender de manera efectiva depende de que el conjunto de datos esté perfectamente etiquetado, lo que puede ser difícil y requiere muchos recursos. Una sola entrada mal etiquetada entre millones de puntos de datos perfectamente etiquetados puede no parecer un gran problema, pero si el modelo usa la entrada mal etiquetada para tomar una decisión, puede generar errores que luego se utilizarán como base para el aprendizaje futuro. Esto crea un efecto de bola de nieve que puede tener repercusiones significativas más adelante.

Un enfoque en capas para la ciberseguridad

El aprendizaje automático es una tecnología poderosa que puede desempeñar un papel cada vez más importante en el mundo de la ciberseguridad en los próximos años. Sin embargo, como se mencionó anteriormente, tiene sus defectos y limitaciones. Confiar en el software antivirus que funciona exclusivamente con IA o aprendizaje automático puede dejarlo vulnerable al malware y otras amenazas.

Las soluciones que usan una combinación de tecnologías de protección probablemente proporcionarán una mejor seguridad que un producto que esté completamente basado en IA. Por ejemplo, Emsisoft aprovecha el poder de la inteligencia artificial y el aprendizaje automático, así como otras tecnologías de protección, como el análisis de comportamiento y los verificadores de firmas. Estos sistemas funcionan en sinergia para duplicar y verificar tres veces los resultados de cada uno a fin de brindarle la mejor protección contra malware posible.

Adoptar un enfoque de seguridad de varias capas le permite evitar poner todos sus huevos en una sola canasta y maximiza sus posibilidades de detener el malware antes de que pueda infectar su sistema.