Diagnóstico de severidad de edema pulmonar asistido por multimodal learning
Cargando...
Autores
Tipo de contenido
Document language:
Español
Fecha
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
El diagnóstico del edema pulmonar a partir del análisis automático de radiografías de tórax y reportes clínicos representa un desafío relevante en el desarrollo de sistemas de apoyo a la decisión médica. Este problema se ve agravado por dos factores principales: la escasez de anotaciones clínicas de alta calidad y la dificultad de integrar modalidades heterogéneas como imágenes e informes textuales. Para abordar esta tarea, en esta tesis se estudiaron y compararon distintos enfoques unimodales (imagen y texto por separado) y multimodales (fusión de ambas modalidades), incorporando tanto modelos convencionales como modelos fundacionales. El flujo de trabajo experimental incluye tres componentes principales: (i) el uso de extractores visuales como DenseNet 121 y DINOv2; (ii) la representación textual mediante modelos como BERT Medical y MedCPT, aplicados tanto a reportes redactados por especialistas como a reportes sintéticos generados automáticamente con ContactDoctor; y (iii) la comparación de diferentes mecanismos de fusi´on multimodal: un perceptrón multicapa (MLP), la unidad multimodal con compuertas (Gated Multimodal Unit, GMU) y el marco de Kernel Density Matrices (KDM). La metodología se evaluó en una tarea de clasificación ordinal con cuatro niveles de severidad del edema pulmonar, utilizando el conjunto de datos MIMIC-CXR. Los resultados muestran que: (i) los modelos basados en imágenes superan a los textuales cuando se consideran de manera aislada, alcanzando un máximo de 0.45 con DINOv2; (ii) los reportes generados automáticamente aportan uniformidad y pueden mejorar el desempeño frente a los reportes humanos en ciertos escenarios multimodales; y (iii) la fusión con KDM alcanza el mejor resultado global, logrando un macro F1-score de 0.48, lo que confirma la utilidad de la integración multimodal frente a cualquier modalidad aislada.
Los resultados demuestran que el aprovechamiento de modelos fundacionales y de mecanismos de fusión probabilística como KDM mejora el rendimiento en la predicción de la severidad del edema pulmonar. Estos hallazgos sugieren que la combinación de información visual y textual puede potenciar la capacidad diagnóstica en entornos clínicos con datos limitados. (Texto tomado de la fuente).
Abstract
The diagnosis of pulmonary edema from the automatic analysis of chest radiographs and
clinical reports represents a major challenge in the development of medical decision-support
systems. This problem is aggravated by two main factors: the scarcity of high-quality clinical
annotations and the difficulty of integrating heterogeneous modalities such as images and
textual reports. To address this task, this thesis studied and compared different unimodal
approaches (image and text separately) and multimodal approaches (fusion of both modalities), incorporating both conventional models and foundation models. The experimental
workflow included three main components: (i) the use of visual extractors such as DenseNet121 and DINOv2; (ii) textual representation through models such as BERT Medical and
MedCPT, applied both to reports written by specialists and to synthetic reports automatically generated with ContactDoctor ; and (iii) the comparison of different multimodal fusion
mechanisms: a multilayer perceptron (MLP), the Gated Multimodal Unit (GMU), and the
Kernel Density Matrices (KDM) framework. The methodology was evaluated on an ordinal classification task with four levels of pulmonary edema severity, using the MIMIC-CXR
dataset. The results show that: (i) image-based models outperform text-based ones when
considered in isolation, reaching a maximum 0.45 with DINOv2; (ii) automatically generated reports provide uniformity and can improve performance compared to human-written
reports in certain multimodal scenarios; and (iii) fusion with KDM achieves the best overall
result, reaching a macro F1-score of 0.48, confirming the utility of multimodal integration
over any isolated modality.
The results demonstrate that leveraging foundation models and probabilistic fusion mechanisms such as KDM improves performance in predicting pulmonary edema severity. These
findings suggest that the combination of visual and textual information can enhance diagnostic capacity in clinical environments with limited data.
Palabras clave propuestas
Edema pulmonar; Aprendizaje multimodal; Fusión de características; Modelos fundacionales; Kernel Density matrices; Enriquecimiento semántico; Diagnóstico asistido por computador; Pulmonary edema; Multimodal learning; Feature fusion; Foundation models; Kernel Density matrice; Semantic enrichment; Computer-aided diagnosis
Descripción
ilustraciones, fotografías, gráficas, tablas

