En 18 día(s), 20 hora(s) y 7 minuto(s): El Repositorio Institucional UNAL informa a la comunidad universitaria que, con motivo del periodo de vacaciones colectivas, el servicio de publicación estará suspendido: Periodo de cierre: Del 20 de diciembre al 18 de enero de 2026. Sobre los depósitos: Durante este tiempo, los usuarios podrán continuar realizando el depósito respectivo de sus trabajos en la plataforma. Reanudación: Una vez reiniciadas las actividades administrativas, los documentos serán revisados y publicados en orden de llegada.

Diagnóstico de severidad de edema pulmonar asistido por multimodal learning

Cargando...
Miniatura

Document language:

Español

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

El diagnóstico del edema pulmonar a partir del análisis automático de radiografías de tórax y reportes clínicos representa un desafío relevante en el desarrollo de sistemas de apoyo a la decisión médica. Este problema se ve agravado por dos factores principales: la escasez de anotaciones clínicas de alta calidad y la dificultad de integrar modalidades heterogéneas como imágenes e informes textuales. Para abordar esta tarea, en esta tesis se estudiaron y compararon distintos enfoques unimodales (imagen y texto por separado) y multimodales (fusión de ambas modalidades), incorporando tanto modelos convencionales como modelos fundacionales. El flujo de trabajo experimental incluye tres componentes principales: (i) el uso de extractores visuales como DenseNet 121 y DINOv2; (ii) la representación textual mediante modelos como BERT Medical y MedCPT, aplicados tanto a reportes redactados por especialistas como a reportes sintéticos generados automáticamente con ContactDoctor; y (iii) la comparación de diferentes mecanismos de fusi´on multimodal: un perceptrón multicapa (MLP), la unidad multimodal con compuertas (Gated Multimodal Unit, GMU) y el marco de Kernel Density Matrices (KDM). La metodología se evaluó en una tarea de clasificación ordinal con cuatro niveles de severidad del edema pulmonar, utilizando el conjunto de datos MIMIC-CXR. Los resultados muestran que: (i) los modelos basados en imágenes superan a los textuales cuando se consideran de manera aislada, alcanzando un máximo de 0.45 con DINOv2; (ii) los reportes generados automáticamente aportan uniformidad y pueden mejorar el desempeño frente a los reportes humanos en ciertos escenarios multimodales; y (iii) la fusión con KDM alcanza el mejor resultado global, logrando un macro F1-score de 0.48, lo que confirma la utilidad de la integración multimodal frente a cualquier modalidad aislada. Los resultados demuestran que el aprovechamiento de modelos fundacionales y de mecanismos de fusión probabilística como KDM mejora el rendimiento en la predicción de la severidad del edema pulmonar. Estos hallazgos sugieren que la combinación de información visual y textual puede potenciar la capacidad diagnóstica en entornos clínicos con datos limitados. (Texto tomado de la fuente).

Abstract

The diagnosis of pulmonary edema from the automatic analysis of chest radiographs and clinical reports represents a major challenge in the development of medical decision-support systems. This problem is aggravated by two main factors: the scarcity of high-quality clinical annotations and the difficulty of integrating heterogeneous modalities such as images and textual reports. To address this task, this thesis studied and compared different unimodal approaches (image and text separately) and multimodal approaches (fusion of both modalities), incorporating both conventional models and foundation models. The experimental workflow included three main components: (i) the use of visual extractors such as DenseNet121 and DINOv2; (ii) textual representation through models such as BERT Medical and MedCPT, applied both to reports written by specialists and to synthetic reports automatically generated with ContactDoctor ; and (iii) the comparison of different multimodal fusion mechanisms: a multilayer perceptron (MLP), the Gated Multimodal Unit (GMU), and the Kernel Density Matrices (KDM) framework. The methodology was evaluated on an ordinal classification task with four levels of pulmonary edema severity, using the MIMIC-CXR dataset. The results show that: (i) image-based models outperform text-based ones when considered in isolation, reaching a maximum 0.45 with DINOv2; (ii) automatically generated reports provide uniformity and can improve performance compared to human-written reports in certain multimodal scenarios; and (iii) fusion with KDM achieves the best overall result, reaching a macro F1-score of 0.48, confirming the utility of multimodal integration over any isolated modality. The results demonstrate that leveraging foundation models and probabilistic fusion mechanisms such as KDM improves performance in predicting pulmonary edema severity. These findings suggest that the combination of visual and textual information can enhance diagnostic capacity in clinical environments with limited data.

Descripción

ilustraciones, fotografías, gráficas, tablas

Palabras clave

Citación