Estudio de la reducción del sobreajuste en arquitecturas de redes neuronales residuales ResNet en un escenario de clasificación de patrones

Miniatura

Autores

Chacón Chamorro, Manuela Viviana

Director

Riaño Rojas, Juan Carlos
Gallego Restrepo, Fernando Andrés

Tipo de contenido

Trabajo de grado - Maestría

Idioma del documento

Español

Fecha de publicación

2023

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

Las redes neuronales artificiales son una técnica de aprendizaje automático inspirada en el funcionamiento biológico de las neuronas, actualmente soportan gran parte de la denominada Inteligencia Artificial. Pese a su notable evolución estos algoritmos presentan el problema de sobreajuste, "memorización de los datos de entrenamiento", lo cual disminuye la capacidad de generalización. En este trabajo se estudió el sobreajuste en un escenario de clasificación de patrones y se determinó un método para resolver el problema. Este estudio se realizó para la arquitectura de neuronal residual (ResNet) y se sustentó en el análisis de las propiedades matemáticas de la función que representa esta estructura, en particular, la continuidad de Lipschitz. La validación del método se realizó comparando su desempeño con las técnicas convencionales de reducción de sobreajuste: la regularización L1, L2 y Dropout. Variando la profundidad de la red se realizaron dos experimentos de clasificación con los conjuntos de datos Digits y Fashion de MNIST. También se efectuaron pruebas en arquitecturas definidas para 3 conjuntos de datos convencionales y 3 de datos sintéticos. Adicionalmente, se realizaron dos experimentos que incluyeron imágenes adversarias. El método desarrollado presenta un desempeño destacable logrando: comportamiento similar en las curvas de aprendizaje para entrenamiento y prueba, menor variabilidad del modelo al cambiar el conjunto de entrenamiento, reducción de la cota de Lipschitz, tolerancia a las pruebas adversarias. En síntesis, el método propuesto resultó idóneo en la reducción del sobreajuste en las arquitecturas residuales de los experimentos y tolera de manera sobresaliente ataques adversarios. (Texto tomado de la fuente)

Abstract

Artificial neural networks are a technique of machine learning inspired by the biological functioning of neurons, currently supporting a significant portion of the so-called Artificial Intelligence. Despite their notable evolution, these algorithms present the problem of overfitting, "training data memorization", which reduces the capacity of generalization. In this work, overfitting in a pattern classification scenario was studied and a method to solve the problem was determined. This study was carried out for the Residual Neural Network architecture (ResNet) and was based on the analysis of the mathematical properties of the function that represents this structure, in particular, the Lipschitz continuity. The method was validated by comparing its performance with conventional overfitting reduction techniques: L1, L2 and Dropout regularization. Varying the depth of the network, two classification experiments were performed with the data sets Digits and Fashion MNIST. Tests were also performed on architectures defined for 3 conventional data sets and 3 synthetic data sets. Additionally, two experiments were conducted that included adversarial images. The developed method posed remarkable performance achieving: similar behavior in the learning curves for train and test set, less variability of the model when changing the train set, reduction of the Lipschitz bound and adversarial test tolerance. In summary, the method is suitable to reduce overfitting in residual architectures of the experiments and it tolerates adversary attacks in an outstanding way.

Descripción Física/Lógica/Digital

graficas, tablas

Palabras clave

Citación