Regularized lightweight deep learning for semantic image segmentation

Atribución-NoComercial 4.0 InternacionalÁlvarez Meza, Andrés MarinoIturriago Salas, Lucas Miguel2026-02-272026-02-272025https://repositorio.unal.edu.co/handle/unal/89697ilustraciones, graficas, tablasSemantic image segmentation holds immense potential for transformative applications in critical domains such as healthcare and agriculture. However, the practical deployment of deep learning models is often hindered by three fundamental challenges: the high variability of real-world input data, the cost and inconsistency of annotations, and the computational demands of state-of-the-art architectures. While existing methods achieve high accuracy under controlled conditions, they often lack the robustness and efficiency required to overcome these practical hurdles, limiting their generalization to diverse, resource-constrained environments. This thesis proposes a regularized, lightweight deep learning framework designed to maintain high accuracy and robustness in semantic segmentation across diverse datasets, variable imaging conditions, and application domains, while ensuring efficient deployment in resource-constrained environments. The framework is built on a systematic approach that addresses the entire modeling pipeline, from baseline evaluation to final deployment. To achieve this, three main strategies were developed. First, a comprehensive comparative analysis of canonical segmentation architectures on four heterogeneous datasets was conducted to establish robust baselines and identify the limitations of existing models. This revealed that encoder-decoder architectures like U-Net offer superior generalization but struggle with specific challenges like class imbalance and fine-detail preservation. Second, to tackle annotation noise and disagreement, a novel multi-annotator learning framework, AnnotHarmony, was proposed, centered on a new loss function (TGCESSPS). This approach successfully learns from noisy, sparse, and crowdsourced labels by modeling annotator reliability at the pixel level, outperforming traditional aggregation methods in preserving clinically relevant details. Third, the most effective models were optimized and evaluated for their generalization capacity and computational efficiency. This culminated in the successful deployment of lightweight models on edge devices, including a Raspberry Pi for automated agricultural monitoring and a mobile application for real-time clinical support, demonstrating a practical balance between performance and efficiency. In conclusion, this work bridges the gap between theoretical research and practical application by delivering a holistic framework for developing robust, resilient, and efficient semantic segmentation systems. The methodologies presented advance the state of the art by enabling reliable model training with imperfect data and facilitating the deployment of computer vision solutions in real-world, resource-limited settings, thereby increasing their potential impact in critical fields (Texto tomado de la fuente).La segmentación semántica de imágenes posee un inmenso potencial para aplicaciones transformadoras en dominios críticos como la salud y la agricultura. Sin embargo, el despliegue práctico de modelos de aprendizaje profundo se ve a menudo obstaculizado por tres desafíos fundamentales: la alta variabilidad de los datos de entrada en el mundo real, el costo e inconsistencia de las anotaciones y las exigencias computacionales de las arquitecturas de vanguardia. Aunque los métodos existentes logran una alta precisión bajo condiciones controladas, suelen carecer de la robustez y eficiencia necesarias para superar estos obstáculos prácticos, lo que limita su generalización a entornos diversos y con recursos limitados. Esta tesis propone un marco de aprendizaje profundo ligero y regularizado, diseñado para mantener una alta precisión y robustez en la segmentación semántica a través de diversos conjuntos de datos, condiciones de imagen variables y dominios de aplicación, garantizando al mismo tiempo un despliegue eficiente en entornos de recursos limitados. El marco se basa en un enfoque sistemático que aborda todo el flujo de trabajo del modelado, desde la evaluación base hasta el despliegue final. Para lograr esto, se desarrollaron tres estrategias principales: Primero: Se realizó un análisis comparativo exhaustivo de arquitecturas de segmentación canónicas en cuatro conjuntos de datos heterogéneos para establecer líneas base sólidas e identificar las limitaciones de los modelos existentes. Esto reveló que las arquitecturas de codificador-decodificador (como U-Net) ofrecen una generalización superior, pero presentan dificultades ante desafíos específicos como el desequilibrio de clases y la preservación de detalles finos. Segundo: Para abordar el ruido y las discrepancias en las anotaciones, se propuso un nuevo marco de aprendizaje multi-anotador llamado AnnotHarmony, centrado en una nueva función de pérdida (TGCESSPS). Este enfoque logra aprender con éxito de etiquetas ruidosas, dispersas y obtenidas mediante crowdsourcing al modelar la fiabilidad del anotador a nivel de píxel, superando a los métodos de agregación tradicionales en la preservación de detalles clínicamente relevantes. Tercero: Se optimizaron y evaluaron los modelos más efectivos en cuanto a su capacidad de generalización y eficiencia computacional. Esto culminó en el despliegue exitoso de modelos ligeros en dispositivos de borde (edge devices), incluyendo una Raspberry Pi para el monitoreo agrícola automatizado y una aplicación móvil para soporte clínico en tiempo real, demostrando un equilibrio práctico entre rendimiento y eficiencia. En conclusión, este trabajo cierra la brecha entre la investigación teórica y la aplicación práctica al entregar un marco integral para el desarrollo de sistemas de segmentación semántica robustos, resilientes y eficientes. Las metodologías presentadas avanzan el estado del arte al permitir el entrenamiento de modelos confiables con datos imperfectos y facilitar el despliegue de soluciones de visión por computadora en entornos reales de recursos limitados, aumentando así su impacto potencial en campos críticos.xx, 137 páginasapplication/pdfenghttp://creativecommons.org/licenses/by-nc/4.0/000 - Ciencias de la computación, información y obras generales::006 - Métodos especiales de computaciónRegularized lightweight deep learning for semantic image segmentationTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessArtificial inteligentDeep learningComputer visionMutiple annotatorsTruncated generalized cross entropyInteligencia artificialAprendizaje profundoVisión por computadorMúltiples anotadoresEntropía cruzada generalizada truncadaInteligencia artificialArtificial intelligenceAnálisis de datosData analysisAprendizaje profundo ligero regularizado para la segmentación semántica de imágenes