Predicción de la sobrevida global y libre de recaída en pacientes con cáncer de mama triple negativo a través de agrupaciones basadas en aprendizaje de máquina sobre datos clínicos

Alzate Granados, Juan Pablo

Predicción de la sobrevida global y libre de recaída en pacientes con cáncer de mama triple negativo a través de agrupaciones basadas en aprendizaje de máquina sobre datos clínicos

Archivos

Tesis de Doctorado en Oncología (4.07 MB)

Autores

Alzate Granados, Juan Pablo

Director

Niño Vasquez, Luis Fernando

Tipo de contenido

Trabajo de grado - Doctorado

Document language:

Español

Fecha

2025

Documentos PDF

Resumen

Introducción: El cáncer de mama triple negativo (CMTN) se caracteriza por la ausencia de expresión de los receptores de estrógeno, progesterona y HER2, y presenta un pronóstico clínico complejo. La heterogeneidad molecular y clínica de este subtipo dificulta la predicción de desenlaces como la mortalidad y la recaída. En este contexto, las técnicas de aprendizaje de máquina brindan oportunidades para identificar patrones y subgrupos de pacientes que compartan características pronósticas similares. Objetivo: Desarrollar modelos de agrupamiento (aprendizaje no supervisado) y de predicción (aprendizaje supervisado) que permitan estimar la sobrevida global y la sobrevida libre de recaída en pacientes con CMTN, a partir de variables clínicas, demográficas y biomarcadores, con el fin de orientar estrategias terapéuticas más personalizadas. Métodos: Se llevó a cabo un estudio de cohorte retrospectiva con 4,808 pacientes mayores de 18 años diagnosticadas de CMTN. Se recolectaron datos sobre características sociodemográficas, estado funcional (Karnofsky, ECOG), comorbilidades (índice de Charlson), marcadores tumorales (BRCA1/2, Ki67, PD-L1, entre otros) y tratamientos recibidos. Agrupamiento – aprendizaje no supervisado: se aplicó el algoritmo k-prototipos (k-prototypes) para variables mixtas (categóricas y continuas). El número óptimo de conglomerados se determinó mediante el método del codo. Modelos de predicción: se entrenó un bosque aleatorio de sobrevida (survival random forest) para estimar la probabilidad de mortalidad y recaída, validando su desempeño mediante validación cruzada estratificada (k-fold cross-validation). Se emplearon métricas de exactitud, curva ROC, precisión, exhaustividad (recall) y puntaje F1 (F1-score). Resultados: Agrupamiento: se identificaron cuatro conglomerados con perfiles diferenciados en cuanto a edad, carga de comorbilidades, estado funcional e inmunomarcadores. Los grupos con mayor comorbilidad y peor ECOG presentaron tasas más altas tanto de mortalidad (hasta 42.3%) como de recaída (54.25%). Predicción: el modelo de bosque aleatorio obtuvo una exactitud cercana al 80% para mortalidad (área bajo la curva ROC, AUC=0.78) y al 75% para recaída (AUC=0.76). Las variables más influyentes fueron el índice de Charlson, el estado funcional (ECOG), la presencia de mutaciones BRCA1/2, la expresión de PD-L1 y factores antropométricos (peso, talla, IMC). Conclusiones: La combinación de algoritmos de agrupamiento y modelos predictivos basados en aprendizaje de máquina permitió estratificar el riesgo de manera más precisa en CMTN. Estos hallazgos resaltan la importancia de considerar tanto la heterogeneidad clínica como la molecular para optimizar las decisiones terapéuticas y el seguimiento, avanzando hacia una medicina personalizada en cáncer de mama triple negativo. (Texto tomado de la fuente)

Abstract

Introduction: Triple-negative breast cancer (TNBC) is characterized by the absence of estrogen receptor, progesterone receptor, and HER2 expression, and it is associated with a complex clinical prognosis. The molecular and clinical heterogeneity of this subtype makes it difficult to predict outcomes such as mortality and relapse. In this context, machine learning techniques offer opportunities to identify patterns and subgroups of patients who share similar prognostic characteristics. Objective: To develop clustering models (unsupervised learning) and prediction models (supervised learning) to estimate overall survival and relapse-free survival in patients with TNBC, based on clinical, demographic, and biomarker variables, in order to guide more personalized therapeutic strategies. Methods: A retrospective cohort study was conducted including 4,808 patients older than 18 years diagnosed with TNBC. Data were collected on sociodemographic characteristics, functional status (Karnofsky, ECOG), comorbidities (Charlson Comorbidity Index), tumor markers (BRCA1/2, Ki67, PD-L1, among others), and treatments received. Clustering – unsupervised learning: the k-prototypes algorithm was applied to mixed variables (categorical and continuous). The optimal number of clusters was determined using the elbow method. Prediction models: a survival random forest was trained to estimate the probability of mortality and relapse, and its performance was validated using stratified k-fold crossvalidation. Accuracy, ROC curve, precision, recall, and F1-score metrics were used. Results: Clustering: four clusters were identified with distinct profiles in terms of age, comorbidity burden, functional status, and immune markers. Groups with greater comorbidity burden and worse ECOG status showed higher rates of both mortality (up to 42.3%) and relapse (54.25%). Prediction: the random forest model achieved an accuracy close to 80% for mortality (area under the ROC curve, AUC = 0.78) and 75% for relapse (AUC = 0.76). The most influential variables were the Charlson Comorbidity Index, functional status (ECOG), the presence of BRCA1/2 mutations, PD-L1 expression, and anthropometric factors (weight, height, BMI). Conclusions: The combination of clustering algorithms and machine learning–based predictive models enabled more precise risk stratification in TNBC. These findings highlight the importance of considering both clinical and molecular heterogeneity to optimize therapeutic decision-making and follow-up, moving toward personalized medicine in triple-negative breast cancer.

Palabras clave propuestas

Neoplasias de la Mama Triple Negativas; Aprendizaje Automático; Pronóstico; Recurrencia Local de Neoplasia; Estudios de Cohortes; Triple Negative Breast Neoplasms; Machine Learning; Prognosis; Neoplasm Recurrence local; Cohort Studies

Descripción

ilustraciones a color, diagramas, mapas

URI

https://repositorio.unal.edu.co/handle/unal/89791

Colecciones

Doctorado en Oncología

Página completa del ítem

Predicción de la sobrevida global y libre de recaída en pacientes con cáncer de mama triple negativo a través de agrupaciones basadas en aprendizaje de máquina sobre datos clínicos

Archivos

Autores

Director

Tipo de contenido

Editor

Document language:

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Resumen

Abstract

Palabras clave propuestas

Descripción

Palabras clave

Citación

URI

Colecciones