Detección temprana de cáncer en población sintomática: desarrollo de un modelo multivariante y un modelo de aprendizaje de máquinas basados en bases de datos administrativas del sistema de salud colombiano y aplicados al cáncer gástrico
Type
Trabajo de grado - Doctorado
Document language
EspañolPublication Date
2024-05Metadata
Show full item recordSummary
En Colombia, el cáncer gástrico es la primera causa de muerte por cáncer. En el momento no existen estrategias de tamización con eficacia demostrada para esta enfermedad y mejorar la oportunidad diagnóstica en sintomáticos representaría menor esfuerzo para sistemas de salud y pacientes. Diversos modelos utilizan síntomas y factores de riesgo restringidos a variables con muy alto valor predictivo positivo. La inteligencia artificial posibilita la búsqueda de nuevas alternativas, pero los estudios en este campo se orientan a mejorar la interpretación de imágenes endoscópicas o a mejorar modelos epidemiológicos preexistentes. Adicionalmente, no se conocen trabajos desarrollados en Latinoamérica. Utilizando bases de datos del sistema de salud, este trabajo abordó la problemática descrita mediante el análisis de la asociación del diagnóstico de cáncer gástrico con diagnósticos y procedimientos registrados en todas las atenciones previas al diagnóstico de cáncer, sobre la idea de que el registro sistemático de todas las atenciones permite identificar el rastro que deja el paciente durante el desarrollo de la patología oncológica. Se realizó un estudio con dos componentes: modelo multivariado de predicción clínica (prospectivo) y modelos de predicción basados en aprendizaje de máquinas (retrospectivo). Se utilizó la base de datos para cálculo de la Unidad de Pago por Capitación en el régimen contributivo del sistema de salud y la información de defunciones del sistema de estadísticas vitales. Se seleccionaron periodos de análisis con base en la disponibilidad, suficiencia, comparabilidad y consistencia de los datos. Modelo multivariante: Se incluyeron pacientes de 40 a 90 años que usaron servicios en 2011. Se excluyeron pacientes con diagnóstico de cáncer o fallecidos ese año. Se utilizó regresión logística LASSO para seleccionar variables predictoras. Las anemias carenciales se definieron como variable de exposición, y el índice de comorbilidad de Charlson modificado como covariable. En total conformaron la cohorte 14.399 individuos con anemia (expuestos) y 44.961 sin anemia (no expuestos). Se analizó el riesgo de diagnóstico de cáncer gástrico mediante una función de incidencia acumulada. Posteriormente se utilizó un modelo de riesgos competitivos. Se observaron diferencias en edad, sexo y lugar de residencia entre expuestos y no expuestos. El riesgo relativo para el diagnóstico de cáncer gástrico fue 1,53 (IC95% 1,51-1,54), con fracción atribuible 47,1 y fracción atribuible poblacional 17,8. La mediana de tiempo al diagnóstico fue 28,2 y 36,7 meses para expuestos y no expuestos. La incidencia de cáncer gástrico a 60 meses con anemia fue 7,6 por 1.000 (IC95% 6,1-9,1) y sin anemia 2,4 por 1.000 (IC95% 1,9-2,8). En el modelo de riesgos competitivos la anemia mostró la mayor fuerza de asociación. Modelo de aprendizaje de máquinas: Se seleccionaron pacientes de 30 a 90 años con y sin diagnóstico de cáncer gástrico entre septiembre y diciembre de 2017. Se utilizaron dos periodos de análisis: próximo al desenlace (enero-agosto 2017) y dos años previos al desenlace (septiembre 2015-agosto 2017). En el último caso se dejó un periodo de lavado de seis meses para reducir el efecto de diagnósticos y procedimientos cercanos al desenlace. Se filtraron variables predictoras (CIE10 diagnósticos y CUPS procedimientos). Se incluyeron 1.426 y 1.462 variables para los análisis a uno y dos años, respectivamente. Se utilizaron tres modelos: regresión logística LASSO, bosques aleatorios y potenciación del gradiente. Se evaluó el desempeño mediante el área bajo la curva (AUROC), exactitud (accuracy), sensibilidad, especificidad, valor predictivo positivo (VPP) y valor predictivo negativo (VPN). Se calculó el número necesario a seguir (NNT) en función de la probabilidad de diagnóstico de cáncer. Se incluyeron 4.965.931 y 5.175.620 individuos para el seguimiento a uno y dos años, dentro de los cuales hubo 1.426 y 1.462 casos de cáncer gástrico, respectivamente. La mayoría fueron mujeres, la edad promedio 58 y 53 años en pacientes con y sin cáncer gástrico, el número de atenciones fue mayor en pacientes con cáncer gástrico. Los coeficientes para las variables predictivas fueron mayores en el análisis de un año. A su vez, los diagnósticos mostraron mayor capacidad predictiva en ambos periodos de análisis. El AUROC no mostró diferencias entre modelos en el análisis a dos años; sin embargo, al utilizar el mejor punto de corte de cada modelo, la sensibilidad para LASSO fue mayor que para bosques aleatorios y potenciación de gradiente (65,4%; 27,8% y 57,9%). La especificidad fue mayor en los bosques aleatorios. La mayor capacidad predictiva la tuvo la regresión logística LASSO en el año previo al diagnóstico. En todos los modelos, el desempeño se mejoró con el incremento del punto de corte (mayor probabilidad de predicción del desenlace), esencialmente por un incremento de la especificidad. Los VPP en todos los modelos fueron menores de 1% en razón a la baja prevalencia de la enfermedad. El AUROC no mostró diferencias entre el ejercicio de validación interno (entrenamiento) y la validación externa. Consistentemente, municipios ubicados en la zona de montaña estuvieron dentro de las variables con coeficientes más altos mientras que municipios de la Costa Atlántica estuvieron dentro de las variables con coeficientes más bajos. En el análisis a dos años, la proporción de individuos que requieren seguimiento para detectar al menos el 70% de los casos de cáncer gástrico es 16,1%; 16,5%; y 20,4% según LASSO, bosques aleatorios y potenciación del gradiente, respectivamente; esto equivale a un NNT de 1.170, 1.230, y 1.498. La regresión logística LASSO a un año muestra que se debe seguir el 10,6% de la población para detectar al menos el 70% de los casos de cáncer gástrico (NNT 790). Conclusiones: El presente estudio representa un abordaje innovador del aprendizaje de máquinas al utilizar información no sesgada de toda expresión sintomática de la enfermedad en su fase previa al diagnóstico. La regresión logística LASSO mostró mejor desempeño que los modelos restantes incluido el modelo multivariante. El desempeño observado puede mejorarse en población de mayor riesgo como los residentes en los municipios de alta montaña. Los resultados tienen potencial de uso en la práctica clínica dada su capacidad discriminativa y el NNT, pero su uso en la rutina de los servicios debe estar precedido de su correcta validación clínica (Texto tomado de la fuente).Abstract
Stomach cancer is the leading cause of cancer death in Colombia. There is no evidence-based screening available for this condition and early diagnosis in symptomatic patients is a more suitable alternative for low- and middle-income countries given the lower burden for health systems and patients. Predictive models have been developed but restricted to variables with very high positive predictive value. Artificial intelligence makes possible the search for new alternatives for stomach cancer early detection; however, most studies on this topic focus on endoscopic images or improvement of pre-existing epidemiological models. In addition, we found no studies from Latin America. Using databases from the Colombian health system, this study analyzes the association of stomach cancer diagnosis with previous clinical diagnoses and procedures, based on the idea that the systematic recording of all clinical conditions allows us to identify the patient’s footprint during the carcinogenic process. A study with two components was developed: a multivariate clinical prediction model (prospective) and a prediction model based on machine learning (retrospective). We used the database for the definition of the Capitation Payment Unit in the contributory regime of the Colombian health system (BDUPC given its Spanish acronym) and the country's death information from the vital statistics system. The period of analysis was defined based on data availability completeness, comparability (coding), and consistency. Multivariate model (prospective analysis): Subjects aged 40 to 90 years old who attended health services in 2011 were included. Patients with cancer diagnosis and patients reported in the mortality database for the year 2011 were excluded. LASSO logistic regression was used to select predictive variables. Non-hemolytic anemia was defined as the exposure variable and the Charlson comorbidity index a covariate (17 diagnoses). In total, 14,399 individuals with anemia and 44,961 without anemia made up the follow-up cohort. The risk of stomach cancer diagnosis was estimated using a cumulative incidence function, and subsequently a competing risks model. The groups showed differences in age, sex and place of residence. The average number of visits to health services was 1.8; 23.0 and 40.3 for patients without anemia, with anemia and with gastric cancer, respectively. The relative risk for stomach cancer diagnosis was 1.53 (95% CI 1.51-1.54), with attributable fraction 47.1 and a population attributable fraction 17.8. The median time to diagnosis for subjects with anemia was 28.2 months (IQR 17.2-40.9) and for subjects without anemia 36.7 months (IQR 23.8-48.0). The cumulative incidence of gastric cancer at 60 months in subjects with anemia was 7.6 per 1,000 (95% CI 6.1-9.1) and in subjects without anemia 2.4 per 1,000 (95% CI 1.9-2 ,8). In the competing risks model, anemia showed the greatest strength of association followed by male sex. Machine Learning Model (retrospective Analysis): A sample of patients with and without gastric cancer attending health services between September 1st and December 31st/2017 was selected. We included patients 30 to 90 years old. We analyzed the predictive capacity of the models close to the outcome (January-August 2017), and in a two-year period prior to the outcome (September 2015-August 2017). In the latter case, a washout period of six months prior to the outcome was allowed in order to reduce the effect of diagnoses and procedures close to the outcome. Predictive variables (diagnoses by CIE10 codes and procedures by CUPS codes) were filtered using LASSO logistic regression. In total 1,426 and 1,462 variables were included for the one-year and two-year periods of analysis, respectively. Three machine learning models were used: LASSO logistic regression, random forests, and gradient boosting. The accuracy of the models was evaluated by determining the area under the curve (AUROC), accuracy, sensitivity, specificity, positive predictive value (PPV), and negative predictive value (NPV). Additionally, the number needed to follow-up was calculated (NNT). After filtering by data quality, 4,965,931 and 5,175,620 individuals were included for the one-year and two-year periods of analysis, respectively. There were 1,426 and 1,462 cases of stomach cancer, respectively. Most patients were women, the average age was 58 years in patients with gastric cancer and 53 years in controls. The rate of health service attendance was higher in patients with gastric. The coefficients for diagnoses and procedures were higher for the one-year period. Diagnostic codes showed greater predictive capacity than procedures codes. The machine learning models showed no difference in AUROC; however, when using the best cutoff point for each model, the sensitivity for LASSO was higher than in random forests and gradient boosting (65.4%; 27.8% and 57. 9%, respectively). Specificity was higher in the random forest at the cost of a significant reduction in sensitivity. The predictive capacity of the LASSO model for the one-year period was the highest. In all cases, the accuracy improved with a higher cut-off point (greater probability of predicting the outcome), essentially due to an increase in specificity. Due to the low prevalence of the disease (approximately 0.02%), the PPV in all models was lower than 1%. The AUROC did not show relevant differences between training and test datasets. In all models, municipalities located in the Colombian mountains reported higher coefficients, and municipalities located in the Atlantic Coast lower coefficients. The detect at least 70% of stomach cancer cases, we need to follow-up 16.1%; 16.5%; and 20.4% of the population during two years according to LASSO, random forests and gradient boosting, respectively. Such numbers are equivalent to a NNT 1,170, 1,230, and 1,498, respectively. The LASSO logistic regression at one-year reports that 10.6% of the population requires follow-up to detect at least 70% of stomach cancer cases (NNT 790). Conclusions: The machine learning models developed in this study represent an innovative approach by using all available data related to the symptomatic expression of the disease in the pre-diagnostic phase. LASSO showed better performance than other models (including the multivariate model). The observed performance might improve in a higher risk population such as residents in high mountain municipalities. The results have potential for use in clinical practice given their discriminative capacity and the NNT, but their use in routine services must be preceded by their correct clinical validation.Keywords
Physical description
ilustraciones, diagramas
Collections
