Self-supervised learning for histopathological image analysis using limited annotated data

Cargando...
Miniatura

Document language:

Inglés

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

El análisis de imágenes digitales de láminas de histopatología desempeña un papel crucial en la investigación y el diagnóstico del cáncer, incluido el cáncer de próstata. Sin embargo, adquirir suficientes datos anotados para entrenar modelos de aprendizaje profundo en este dominio suele ser desafiante debido a la escasez de patólogos, la experiencia requerida de ellos para la anotación precisa y al consumo de tiempo del proceso. Este estudio propone un enfoque de aprendizaje auto-supervisado con SimCLR (Simple Contrastive Learning of Representations) para análisis histopatológico, permitiendo aprender representaciones visuales a partir de datos no anotados. Estas representaciones se utilizan luego para entrenar un clasificador supervisado con pocos datos etiquetados, facilitando la gradación del cáncer de próstata con alta generalización. En este trabajo se utilizó el conjunto de datos para valoración del grado del cáncer de próstata (Prostate cANcer graDe Assessment - PANDA) [1], que comprende imágenes histopatológicas de muestras de tejido prostático junto con anotaciones de expertos correspondientes para la evaluación del grado de cáncer. Se evaluó diferentes escenarios y configuraciones variando la cantidad de datos anotados, el aprendizaje no supervisado de la representación de las imágenes de conjuntos de datos no anotados de un dominio general (imágenes naturales) o específico (histopatología). En nuestro enfoque propuesto basado en SimCLR, se demuestra la efectividad de las técnicas de auto-supervisión en aprender representaciones significativas a partir de datos no anotados. El enfoque aprovecha las estructuras inherentes y los patrones presentes en las imágenes histopatológicas para aprender representaciones ricas, las cuales luego pueden ser ajustadas (fine-tuned) en un pequeño conjunto de datos anotados para tareas específicas posteriores. En el enfoque propuesto basado en SimCLR se evaluó en la tarea de valoración del grado de cáncer de próstata utilizando un número limitado de muestras anotadas. Los resultados experimentales muestran la capacidad del modelo auto-supervisado para generalizar datos no vistos y lograr un rendimiento competitivo en comparación con enfoques supervisados entrenados en conjuntos de datos anotados más grandes. En particular, se observó un mejor desempeño cuando el modelo fue preentrenado directamente con imágenes histopatológicas, alcanzando con solo el 15 % de datos notados precisiones de 0.87 en tejido estromal, 0.79 en tejido sano y 0.66 en Gleason 5. En contraste, al partir de un modelo preentrenado con imágenes naturales (STL-10), los resultados fueron ligeramente inferiores en esas mismas clases: 0.84, 0.75 y 0.64 respectivamente. A pesar de la diferencia, el enfoque con imágenes naturales también mostró un desempeño destacado, especialmente considerando que se entrenó con una fracción reducida de datos anotados, lo cual evidencia su potencial en escenarios con recursos limitados. (Texto tomado de la fuente)

Abstract

The analysis of digital histopathology slides plays a crucial role in cancer research and diagnosis, including prostate cancer. However, acquiring sufficient annotated data to train deep learning models in this domain is challenging due to the scarcity of pathologists, the expertise required for precise annotations, and the time-consuming nature of the process. This study proposes a self-supervised learning approach based on SimCLR (Simple Contrastive Learning of Representations) for histopathological image analysis, enabling the learning of visual representations from unannotated data. These representations are then used to train a supervised classifier with a small amount of labeled data, facilitating accurate and generalizable prostate cancer grading. The dataset used in this study is the Prostate cANcer graDe Assessment (PANDA) dataset Bulten2022, which contains histopathological images of prostate tissue samples along with expert annotations for cancer grade assessment. We evaluated various scenarios and configurations by varying the amount of annotated data and using self-supervised representation learning on unannotated datasets from either a general domain (natural images) or a specific domain (histopathology). In our proposed SimCLR-based approach, we demonstrate the effectiveness of self-supervised techniques in learning meaningful representations from unannotated data. The method leverages inherent structures and patterns in histopathological images to learn rich representations, which can later be fine-tuned on a small annotated dataset for specific downstream tasks. The proposed SimCLR-based framework was evaluated on the task of prostate cancer grade assessment using a limited number of annotated samples. Experimental results show that the self-supervised model is capable of generalizing to unseen data and achieving competitive performance compared to supervised approaches trained on larger annotated datasets. Notably, better performance was observed when the model was pre-trained directly on domain-specific histopathological images, reaching scores of 0.96 for stroma, 0.76 for healthy tissue, and 0.73, 0.71, 0.42 for Gleason 3, 4, 5, respectively with only 15% of the annotated data. In contrast, when using a model pre-trained on natural images (STL-10), slightly lower scores were obtained: 0.9, 0.58, 0.56, 0.52, and 0.3, respectively. Despite this difference, the model trained on natural images still showed remarkable performance, especially considering it was trained with a reduced fraction of labeled data, highlighting its potential for use in resource-constrained scenarios. (Texto tomado de la fuente)

Descripción

ilustraciones (principalmente a color), diagramas, fotografías

Palabras clave

Citación