Prostate histopathology image classification and retrieval using weakly-supervised multimodal fusion and representation learning
Author
Advisor
Type
Trabajo de grado - Maestría
Document language
InglésPublication Date
2020-10-30Metadata
Show full item recordSummary
This thesis presents an information fusion strategy for the automatic classification and retrieval of prostate histopathology whole-slide images (WSIs) that incorporates novel machine learning components from deep learning and kernel methods. Its main purpose is to enhance the representation of the WSIs using additional text content extracted from diagnosis reports. This is achieved using the multimodal latent semantic alignment (M-LSA) model, which employs a weakly-multimodal-supervised methodology that incorporates text information during the model training to enrich the representation of the WSIs with complementary semantic information. Besides, M-LSA does not require the text data during the prediction phase, which makes it suitable for realistic scenarios where a pathologist may only have the image data. The experimental evaluation demonstrates that the weakly-supervised multimodal enhancement has a significant improvement in the performance during classification and retrieval, further, the proposed model outperforms the state--of--the--art unimodal and multimodal baselines in automatic prostate cancer assessment.Summary
Esta tesis presenta una estrategia de fusión de información para la clasificación y recuperación automática de imágenes de histopatología de próstata incorporando novedosos compenentes de aprendizaje de máquina y aprendizaje profundo. El propósito de la estrategia es mejorar la representación de las imágenes con contenido textual adicional que es extraído de reportes de diagnóstico. Para lograr esto, se propone el modelo multimodal latent semantic alignment (M-LSA), el cual emplea una metodología de supervisión multimodal débil que incorpora información textual durante el entrenamiento para enriquecer la representación de las imágenes con información semántica complementaria. Adicionalmente, M-LSA no requiere la modalidad textual durante la fase de predicción, por lo que el modelo es apropiado para escenarios más realistas donde un patólogo puede tener sólo las imágenes. La evaluación experimental muestra que el enriquecimiento por supervisión débil multimodal presenta una mejora significativa en el despempeño durante clasificación y recuperación, además, el método propuesto supera otros enfoques unimodales y multimodales en el estado del arte del análisis automático de cáncer de próstata.Keywords
Collections
