Detección de URLs maliciosas por medio de técnicas de aprendizaje automático

Céspedes Maestre, María Martha

Detección de URLs maliciosas por medio de técnicas de aprendizaje automático

Archivos

1094269813.2021.pdf (15.04 MB)

Autores

Céspedes Maestre, María Martha

Director

Salcedo Parra, Octavio José
Salazar Herrera, Carlos Alberto

Tipo de contenido

Trabajo de grado - Maestría

Document language:

Español

Fecha

2021-05

Documentos PDF

Resumen

En la actualidad, los ciberdelincuentes perpetran ataques web de forma sencilla, en los que aplican diferentes vectores para poner en peligro la seguridad de la información y en los que entienden al ser humano como un flanco fácil para lograr sus objetivos. Generalmente, los usuarios de internet deben realizar una acción que permita el éxito del ataque, por ejemplo, dar clic a alguna URL. Es por lo anterior, que muchos esfuerzos están dirigidos a encontrar técnicas que mitiguen esta problemática y se apuestan grandes cantidades de dinero en generar soluciones. Tomando como referencia el uso de listas negras, la clasificación heurística, y, prestando especial atención a las técnicas de aprendizaje automático capaces de detectar ataques de día cero, en el presente trabajo se despliega un diseño de detección de URLs maliciosas, haciendo uso de criterios léxicos y de ofuscación de la URL. Estas, clasificadas por medio de técnicas de aprendizaje automático como Logistic Regression, Support Vector Machine y Random Forest; demostrando que los tres clasificadores implementados mantienen una relación de eficacia y rendimiento con porcentajes de precisión del 98%, y, tiempos de respuesta satisfactorio. Es preciso aclarar que Random Forest puede estar sujeto a mejoras, ya que se pretende detectar de manera automática las URLs maliciosas y este clasificador tarda en promedio 16 segundos en hacerlo. Como resultado general del diseño, se obtiene un modelo de libre distribución que puede ser utilizado de forma masiva por diferentes usuarios en la red, capaz de detectar de forma precisa URLs maliciosas.

Abstract

Today, cybercriminals carry out web attacks in a simple way, in which they apply different vectors to endanger information security and in which they understand the human being as an easy flank to achieve their objectives. Generally, Internet users must take an action that allows the attack to succeed, for example, clicking on a URL. This is why many efforts are aimed at finding techniques that mitigate this problem and large amount of money are bet on generating solutions. Taking as a reference the use of blacklists, heuristic classification, and, paying special attention to machine learning techniques capable of detecting zero-day attacks, in this work a design for detecting malicious URLs is deployed, making use of criteria Lexical and URL obfuscation. These, classified by means of machine learning techniques such as Logistic Regression, Support Vector Machine and Random Forest; demonstrating that the three implemented classifiers maintain an efficiency and performance ratio with 98% accuracy percentages, and satisfactory response times. It should be clarified that Random Forest may be subject to improvements, since it is intended to automatically detect malicious URLs and this classifier takes an average of 16 seconds to do so. As a general result of the design, a free distribution model is obtained that can be used an masse by different users on the network, capable of accurately detecting malicious URLs.

Palabras clave propuestas

Uniform Resource Locator (URL); Feature extraction; Machine Learning; Logistic Regression; Support Vector Machines; Random Forest; Localizador uniforme de recursos (URL); Extracción de características; Aprendizaje automático; Regresión logística; Máquinas de vectores de soporte; Bosque aleatorio

Descripción

Documento con toda la información relevante de la investigación
Ilustraciones, gráficos

URI

https://repositorio.unal.edu.co/handle/unal/79722

Colecciones

Maestría en Ingeniería - Telecomunicaciones

Página completa del ítem

Detección de URLs maliciosas por medio de técnicas de aprendizaje automático

Archivos

Autores

Director

Tipo de contenido

Editor

Document language:

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Resumen

Abstract

Palabras clave propuestas

Descripción

Palabras clave

Citación

URI

Colecciones