Detección de URLs maliciosas por medio de técnicas de aprendizaje automático

Atribución-NoComercial-SinDerivadas 4.0 InternacionalSalcedo Parra, Octavio JoséSalazar Herrera, Carlos AlbertoCéspedes Maestre, María Martha2021-06-252021-06-252021-05https://repositorio.unal.edu.co/handle/unal/79722Documento con toda la información relevante de la investigaciónIlustraciones, gráficosEn la actualidad, los ciberdelincuentes perpetran ataques web de forma sencilla, en los que aplican diferentes vectores para poner en peligro la seguridad de la información y en los que entienden al ser humano como un flanco fácil para lograr sus objetivos. Generalmente, los usuarios de internet deben realizar una acción que permita el éxito del ataque, por ejemplo, dar clic a alguna URL. Es por lo anterior, que muchos esfuerzos están dirigidos a encontrar técnicas que mitiguen esta problemática y se apuestan grandes cantidades de dinero en generar soluciones. Tomando como referencia el uso de listas negras, la clasificación heurística, y, prestando especial atención a las técnicas de aprendizaje automático capaces de detectar ataques de día cero, en el presente trabajo se despliega un diseño de detección de URLs maliciosas, haciendo uso de criterios léxicos y de ofuscación de la URL. Estas, clasificadas por medio de técnicas de aprendizaje automático como Logistic Regression, Support Vector Machine y Random Forest; demostrando que los tres clasificadores implementados mantienen una relación de eficacia y rendimiento con porcentajes de precisión del 98%, y, tiempos de respuesta satisfactorio. Es preciso aclarar que Random Forest puede estar sujeto a mejoras, ya que se pretende detectar de manera automática las URLs maliciosas y este clasificador tarda en promedio 16 segundos en hacerlo. Como resultado general del diseño, se obtiene un modelo de libre distribución que puede ser utilizado de forma masiva por diferentes usuarios en la red, capaz de detectar de forma precisa URLs maliciosas.Today, cybercriminals carry out web attacks in a simple way, in which they apply different vectors to endanger information security and in which they understand the human being as an easy flank to achieve their objectives. Generally, Internet users must take an action that allows the attack to succeed, for example, clicking on a URL. This is why many efforts are aimed at finding techniques that mitigate this problem and large amount of money are bet on generating solutions. Taking as a reference the use of blacklists, heuristic classification, and, paying special attention to machine learning techniques capable of detecting zero-day attacks, in this work a design for detecting malicious URLs is deployed, making use of criteria Lexical and URL obfuscation. These, classified by means of machine learning techniques such as Logistic Regression, Support Vector Machine and Random Forest; demonstrating that the three implemented classifiers maintain an efficiency and performance ratio with 98% accuracy percentages, and satisfactory response times. It should be clarified that Random Forest may be subject to improvements, since it is intended to automatically detect malicious URLs and this classifier takes an average of 16 seconds to do so. As a general result of the design, a free distribution model is obtained that can be used an masse by different users on the network, capable of accurately detecting malicious URLs.application/pdfspaDerechos reservados de autor, 2021http://creativecommons.org/licenses/by-nc-nd/4.0/620 - Ingeniería y operaciones afines000 - Ciencias de la computación, información y obras generalesDetección de URLs maliciosas por medio de técnicas de aprendizaje automáticoTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessUniform Resource Locator (URL)Feature extractionMachine LearningLogistic RegressionSupport Vector MachinesRandom ForestLocalizador uniforme de recursos (URL)Extracción de característicasAprendizaje automáticoRegresión logísticaMáquinas de vectores de soporteBosque aleatorioLenguaje de programaciónProtección de datosComputer languagesData protectionMalicious URL detection using machine learning techniques