Prediction of crude oil-water interfacial tension with surfactants and nanomaterials using machine learning
Cargando...
Autores
Tipo de contenido
Document language:
Inglés
Fecha
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
La predicción precisa de la tensión interfacial (IFT) es un factor crítico para el diseño y la optimización de los procesos de recuperación mejorada de petróleo por medios químicos (cEOR). Este estudio se centra en la aplicación de cuatro modelos predictivos (RF, ET, GBRT, XGBoost) para la IFT en sistemas con surfactantes y nanomateriales. Para ello, se utilizó un conjunto de datos experimentales y basados en la bibliografía con 551 puntos de datos, caracterizado por una distribución desbalanceada compuesta por un 75 % de mediciones de IFT inferiores a 20,55 mN·m⁻¹ (sistemas con aditivos) y un 25 % de experimentos de control con valores más altos. Esta estructura de datos se conservó intencionadamente para garantizar la representatividad fenomenológica del modelo. El rendimiento del modelo se evaluó utilizando métricas de rendimiento (R², RMSE, MAE), gráficos residuales y curvas de aprendizaje. El análisis de las curvas de aprendizaje reveló que el rendimiento del modelo deja de mejorar después de aproximadamente 200 muestras de entrenamiento, lo que demuestra que incorporar datos adicionales similares no es beneficioso. Los resultados confirman que el modelo de bosque aleatorio es la herramienta más robusta para predecir la IFT con un R² del 85 % y subrayan que una composición de datos representativa es más crucial que un equilibrio estadístico estricto, lo que ofrece una valiosa orientación para optimizar los futuros esfuerzos de recopilación de datos.
Abstract
Accurate prediction of interfacial tension (IFT) is a critical factor for the design and optimization of chemical enhanced oil recovery (cEOR) processes. This study focuses on the application of four predictive models (RF, ET, GBRT, XGBoost) for IFT in systems with surfactants and nanomaterials. For this purpose, an experimental and literature-based dataset with 551 datapoints was used, characterized by an imbalanced distribution composed of 75% IFT measurements below 20.55 mN·m⁻¹ (systems with additives) and 25% from control experiments with higher values. This data structure was intentionally preserved to ensure the model's phenomenological representativeness. Model performance was evaluated using performance metrics (R², RMSE, MAE), residual plots, and learning curves. Analysis of the learning curves revealed that the model's performance stops improving after approximately 200 training samples, demonstrating that incorporating similar additional data is not beneficial. The results confirm that the random forest model is the most robust tool for predicting IFT with an R² of 85% and underscore that a representative data composition is more crucial than a strict statistical balance, offering valuable guidance for optimizing future data collection efforts. (Texto tomado de la fuente)
Palabras clave propuestas
Descripción
Ilustraciones

