Predicción de la sobrevida global y libre de recaída en pacientes con cáncer de mama triple negativo a través de agrupaciones basadas en aprendizaje de máquina sobre datos clínicos
Cargando...
Autores
Director
Tipo de contenido
Editor
Document language:
Español
Fecha
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
Introducción: El cáncer de mama triple negativo (CMTN) se caracteriza por la ausencia de expresión de los receptores de estrógeno, progesterona y HER2, y presenta un pronóstico clínico complejo. La heterogeneidad molecular y clínica de este subtipo dificulta la predicción de desenlaces como la mortalidad y la recaída. En este contexto, las técnicas de aprendizaje de máquina brindan oportunidades para identificar patrones y subgrupos de pacientes que compartan características pronósticas similares.
Objetivo: Desarrollar modelos de agrupamiento (aprendizaje no supervisado) y de predicción (aprendizaje supervisado) que permitan estimar la sobrevida global y la sobrevida libre de recaída en pacientes con CMTN, a partir de variables clínicas, demográficas y biomarcadores, con el fin de orientar estrategias terapéuticas más personalizadas.
Métodos: Se llevó a cabo un estudio de cohorte retrospectiva con 4,808 pacientes mayores de 18 años diagnosticadas de CMTN. Se recolectaron datos sobre características sociodemográficas, estado funcional (Karnofsky, ECOG), comorbilidades (índice de Charlson), marcadores tumorales (BRCA1/2, Ki67, PD-L1, entre otros) y tratamientos recibidos.
Agrupamiento – aprendizaje no supervisado: se aplicó el algoritmo k-prototipos (k-prototypes) para variables mixtas (categóricas y continuas). El número óptimo de conglomerados se determinó mediante el método del codo.
Modelos de predicción: se entrenó un bosque aleatorio de sobrevida (survival random forest) para estimar la probabilidad de mortalidad y recaída, validando su desempeño mediante validación cruzada estratificada (k-fold cross-validation). Se emplearon métricas de exactitud, curva ROC, precisión, exhaustividad (recall) y puntaje F1 (F1-score).
Resultados: Agrupamiento: se identificaron cuatro conglomerados con perfiles diferenciados en cuanto a edad, carga de comorbilidades, estado funcional e inmunomarcadores. Los grupos con mayor comorbilidad y peor ECOG presentaron tasas más altas tanto de mortalidad (hasta 42.3%) como de recaída (54.25%).
Predicción: el modelo de bosque aleatorio obtuvo una exactitud cercana al 80% para mortalidad (área bajo la curva ROC, AUC=0.78) y al 75% para recaída (AUC=0.76). Las variables más influyentes fueron el índice de Charlson, el estado funcional (ECOG), la presencia de mutaciones BRCA1/2, la expresión de PD-L1 y factores antropométricos (peso, talla, IMC).
Conclusiones: La combinación de algoritmos de agrupamiento y modelos predictivos basados en aprendizaje de máquina permitió estratificar el riesgo de manera más precisa en CMTN. Estos hallazgos resaltan la importancia de considerar tanto la heterogeneidad clínica como la molecular para optimizar las decisiones terapéuticas y el seguimiento, avanzando hacia una medicina personalizada en cáncer de mama triple negativo. (Texto tomado de la fuente)
Abstract
Introduction: Triple-negative breast cancer (TNBC) is characterized by the absence of estrogen receptor, progesterone receptor, and HER2 expression, and it is associated with a complex clinical prognosis. The molecular and clinical heterogeneity of this subtype makes it difficult to predict outcomes such as mortality and relapse. In this context, machine learning techniques offer opportunities to identify patterns and subgroups of patients who share similar prognostic characteristics.
Objective: To develop clustering models (unsupervised learning) and prediction models (supervised learning) to estimate overall survival and relapse-free survival in patients with TNBC, based on clinical, demographic, and biomarker variables, in order to guide more personalized therapeutic strategies.
Methods: A retrospective cohort study was conducted including 4,808 patients older than 18 years diagnosed with TNBC. Data were collected on sociodemographic characteristics, functional status (Karnofsky, ECOG), comorbidities (Charlson Comorbidity Index), tumor markers (BRCA1/2, Ki67, PD-L1, among others), and treatments received.
Clustering – unsupervised learning: the k-prototypes algorithm was applied to mixed variables (categorical and continuous). The optimal number of clusters was determined using the elbow method.
Prediction models: a survival random forest was trained to estimate the probability of mortality and relapse, and its performance was validated using stratified k-fold crossvalidation. Accuracy, ROC curve, precision, recall, and F1-score metrics were used.
Results: Clustering: four clusters were identified with distinct profiles in terms of age, comorbidity burden, functional status, and immune markers. Groups with greater comorbidity burden and worse ECOG status showed higher rates of both mortality (up to 42.3%) and relapse (54.25%). Prediction: the random forest model achieved an accuracy close to 80% for mortality (area under the ROC curve, AUC = 0.78) and 75% for relapse (AUC = 0.76). The most influential variables were the Charlson Comorbidity Index, functional status (ECOG), the presence of BRCA1/2 mutations, PD-L1 expression, and anthropometric factors (weight, height, BMI).
Conclusions: The combination of clustering algorithms and machine learning–based predictive models enabled more precise risk stratification in TNBC. These findings highlight the importance of considering both clinical and molecular heterogeneity to optimize therapeutic decision-making and follow-up, moving toward personalized medicine in triple-negative breast cancer.
Descripción
ilustraciones a color, diagramas, mapas

