Diagnóstico de severidad de edema pulmonar asistido por multimodal learning

Atribución-NoComercial 4.0 InternacionalGonzález Osorio, Fabio AugustoToledo Cortés, SantiagoNeiza Mejia, Juan Sebastian2025-12-052025-12-052025-11-12https://repositorio.unal.edu.co/handle/unal/89182ilustraciones, fotografías, gráficas, tablasEl diagnóstico del edema pulmonar a partir del análisis automático de radiografías de tórax y reportes clínicos representa un desafío relevante en el desarrollo de sistemas de apoyo a la decisión médica. Este problema se ve agravado por dos factores principales: la escasez de anotaciones clínicas de alta calidad y la dificultad de integrar modalidades heterogéneas como imágenes e informes textuales. Para abordar esta tarea, en esta tesis se estudiaron y compararon distintos enfoques unimodales (imagen y texto por separado) y multimodales (fusión de ambas modalidades), incorporando tanto modelos convencionales como modelos fundacionales. El flujo de trabajo experimental incluye tres componentes principales: (i) el uso de extractores visuales como DenseNet 121 y DINOv2; (ii) la representación textual mediante modelos como BERT Medical y MedCPT, aplicados tanto a reportes redactados por especialistas como a reportes sintéticos generados automáticamente con ContactDoctor; y (iii) la comparación de diferentes mecanismos de fusi´on multimodal: un perceptrón multicapa (MLP), la unidad multimodal con compuertas (Gated Multimodal Unit, GMU) y el marco de Kernel Density Matrices (KDM). La metodología se evaluó en una tarea de clasificación ordinal con cuatro niveles de severidad del edema pulmonar, utilizando el conjunto de datos MIMIC-CXR. Los resultados muestran que: (i) los modelos basados en imágenes superan a los textuales cuando se consideran de manera aislada, alcanzando un máximo de 0.45 con DINOv2; (ii) los reportes generados automáticamente aportan uniformidad y pueden mejorar el desempeño frente a los reportes humanos en ciertos escenarios multimodales; y (iii) la fusión con KDM alcanza el mejor resultado global, logrando un macro F1-score de 0.48, lo que confirma la utilidad de la integración multimodal frente a cualquier modalidad aislada. Los resultados demuestran que el aprovechamiento de modelos fundacionales y de mecanismos de fusión probabilística como KDM mejora el rendimiento en la predicción de la severidad del edema pulmonar. Estos hallazgos sugieren que la combinación de información visual y textual puede potenciar la capacidad diagnóstica en entornos clínicos con datos limitados. (Texto tomado de la fuente).The diagnosis of pulmonary edema from the automatic analysis of chest radiographs and clinical reports represents a major challenge in the development of medical decision-support systems. This problem is aggravated by two main factors: the scarcity of high-quality clinical annotations and the difficulty of integrating heterogeneous modalities such as images and textual reports. To address this task, this thesis studied and compared different unimodal approaches (image and text separately) and multimodal approaches (fusion of both modalities), incorporating both conventional models and foundation models. The experimental workflow included three main components: (i) the use of visual extractors such as DenseNet121 and DINOv2; (ii) textual representation through models such as BERT Medical and MedCPT, applied both to reports written by specialists and to synthetic reports automatically generated with ContactDoctor ; and (iii) the comparison of different multimodal fusion mechanisms: a multilayer perceptron (MLP), the Gated Multimodal Unit (GMU), and the Kernel Density Matrices (KDM) framework. The methodology was evaluated on an ordinal classification task with four levels of pulmonary edema severity, using the MIMIC-CXR dataset. The results show that: (i) image-based models outperform text-based ones when considered in isolation, reaching a maximum 0.45 with DINOv2; (ii) automatically generated reports provide uniformity and can improve performance compared to human-written reports in certain multimodal scenarios; and (iii) fusion with KDM achieves the best overall result, reaching a macro F1-score of 0.48, confirming the utility of multimodal integration over any isolated modality. The results demonstrate that leveraging foundation models and probabilistic fusion mechanisms such as KDM improves performance in predicting pulmonary edema severity. These findings suggest that the combination of visual and textual information can enhance diagnostic capacity in clinical environments with limited data.x, 43 páginasapplication/pdfspahttp://creativecommons.org/licenses/by-nc/4.0/000 - Ciencias de la computación, información y obras generales::005 - Programación, programas, datos de computación610 - Medicina y salud::616 - EnfermedadesDiagnóstico de severidad de edema pulmonar asistido por multimodal learningTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessEdema PulmonarPulmonary EdemaRedes Neuronales ConvolucionalesConvolutional Neural NetworksAlgoritmosAlgorithmsEdema pulmonarAprendizaje multimodalFusión de característicasModelos fundacionalesKernel Density matricesEnriquecimiento semánticoDiagnóstico asistido por computadorPulmonary edemaMultimodal learningFeature fusionFoundation modelsKernel Density matriceSemantic enrichmentComputer-aided diagnosisDiagnosis of pulmonary edema severity assisted by multimodal learning