Maestría en Ciencias - Estadística

URI permanente para esta colecciónhttps://repositorio.unal.edu.co/handle/unal/82517

Examinar

Envíos recientes

Mostrando 1 - 20 de 145
  • Item type: Ítem ,
    Test estadístico para la selección de un modelo clúster en procesos puntuales espaciales homogéneos
    (Universidad Nacional de Colombia, 2025) Ocampo Naranjo, Yeison Yovany; Rodríguez Cortés, Francisco Javier; Ocampo-Naranjo, Yeison Yovany [0009-0003-5389-7528]; Rodriguez Cortes, Francisco Javier [0000-0002-2152-8619]
    Seleccionar un modelo adecuado que se ajuste a un conjunto de datos para hacer inferencias sobre la estimación de parámetros es un objetivo fundamental en estadística. Esta tarea se vuelve particularmente desafiante en el ámbito de los procesos puntuales espaciales, dado que múltiples modelos candidatos representan un reto teórico y computacional significativo debido a la gran heterogeneidad de las configuraciones espaciales. Si bien las pruebas formales y gráficas pueden ayudar a determinar entre aleatorio, agregado o regular, la esencia de caracterizar un patrón puntual radica en ajustar un modelo específico a través de una prueba de bondad de ajuste. Sin embargo, cuando dos o más modelos pasan esta prueba, surge la pregunta de cuál es el modelo más adecuado. En este trabajo, se propone una prueba estadística formal basada en un método de Montecarlo para la selección de modelos agregados homogéneos para patrones puntuales espaciales agregados estacionarios. Se evalúa el desempeño de la prueba mediante el error tipo I y la potencia de la prueba a través de un extenso estudio de simulación. Finalmente, se aplica esta metodología propuesta a un patrón puntual agregado de herramientas de roca paleolíticas descubiertas en una excavación arqueológica en Tanzania, determinando el modelo Thomas como el modelo más adecuado. (Tomado de la fuente)
  • Item type: Ítem ,
    Aplicación y evaluación de gráficos de control a moléculas mediante cromatografía líquida acoplada a espectrometría de masas (LC-MSMS)
    (Universidad Nacional de Colombia, 2025) Correa Alvarez, Grey Saudyt; Ramirez Guevara, Isabel Cristina; Correa Alvarez, Grey [0001475010]; Análisis y Aplicaciones; Métodos en Bioestadística.
    El presente estudio evaluó la implementación de gráficos de control univariado y análisis multivariados para el monitoreo de moléculas de drogas de abuso en matrices de sangre y orina mediante LC-MSMS. Se analizaron datos retrospectivos utilizando pruebas de normalidad, correlación y monitoreo estadístico univariado y multivariado. En orina, algunas moléculas presentaron poblaciones diferenciadas, sugiriendo variabilidad en la preparación de las soluciones. En sangre, la variabilidad fue mayor, reflejando el impacto de la matriz en la ionización y detección de los analitos. La evaluación de los coeficientes de correlación encontró asociaciones entre compuestos farmacológicamente similares, como las benzodiazepinas y los estimulantes, lo que permitió su análisis conjunto mediante gráficos T² de Hotelling. Se recomienda fortalecer la calibración y el monitoreo de la relación de área mediante herramientas multivariadas complementarias como CUSUM. (Tomado de la fuente)
  • Item type: Ítem ,
    Detección de anomalías en series de tiempo utilizando métodos no supervisados
    (Universidad Nacional de Colombia, 2025-03-04) Duque Granda, Carlos Andres; Giraldo Gómez, Norman Diego
    Este trabajo de investigación se enfoca en el análisis y la comparación de diversos modelos no supervisados para la detección de anomalías en series temporales. Estas series son generadas a partir de patrones estacionales simulados y la introducción de anomalías utilizando cadenas de Markov. Las series temporales combinan comportamientos cíclicos y componentes estacionales, empleando funciones de coseno ajustadas y valores generados a partir de distribuciones de Poisson. Las anomalías son inyectadas mediante una matriz de transición que altera el comportamiento esperado de la serie, simulando eventos raros o atípicos. Este enfoque permite generar datos que imitan situaciones reales en las que las anomalías son eventos poco frecuentes y difíciles de predecir. Los modelos evaluados incluyen Isolation Forest, Autoencoders y K-Nearest Neighbors (KNN), los cuales fueron seleccionados por su eficacia en diferentes contextos de detección de anomalías. Cada uno de estos modelos se sometió a una evaluación exhaustiva utilizando métricas como la precisión, el recall, el F1-score, la exactitud, así como las tasas de falsos positivos y negativos. Los resultados obtenidos muestran que los Autoencoders son particularmente efectivos para detectar anomalías complejas y no lineales, mientras que el Isolation Forest sobresale en la identificación de outliers en conjuntos de datos con alta dimensionalidad. Por otro lado, el K-Nearest Neighbors (KNN) demostró ser útil en la detección de anomalías en entornos con menor dimensionalidad y patrones de proximidad bien definidos, donde las anomalías se caracterizan por estar alejadas de los puntos normales. (Texto tomado de la fuente)
  • Item type: Ítem ,
    Detección de eventos en variables eléctricas de sistemas eléctricos de potencia
    (Universidad Nacional de Colombia, 2024-12) Moreno Cossio, Camilo; Giraldo Gomez, Norman Diego
    En los sistemas eléctricos de potencia, las perturbaciones ocasionadas por fallas pueden comprometer la estabilidad y eficiencia del suministro de energía. Estas perturbaciones generan variaciones abruptas en las variables eléctricas, las cuales deben ser detectadas con el fin de poder determinar la causa y la magnitud del impacto en el sistema, permitiendo identificar áreas donde se requiera realizar propuestas de expansión que garanticen la estabilidad ante este tipo de eventos. En este contexto, la detección de cambios estructurales en series temporales de estas variables es una herramienta esencial para identificar eventos que puedan poner en riesgo la integridad del sistema eléctrico. En la actualidad existen distintas metodologías que logran realizar la detección de estos eventos, pero se requiere contar con una alta tasa de muestreo de las variables y datos de cada una de las fases de los elementos del sistema. El enfoque de este estudio es la aplicación de metodologías a datos recolectados con una periodicidad de, al menos cada 4 segundos de acuerdo con la regulación colombiana actual y, de al menos una de las fases de cada elemento del sistema. El presente estudio explora y adapta diferentes técnicas de detección de cambios, tales como la metodología de Changepoint, Strucchange y FastCPD, para su aplicación series de tiempo de las variables eléctricas. (Tomado de la fuente)
  • Item type: Ítem ,
    Fundamentos y aplicaciones del Análisis de Correspondencia Múltiple (ACM) : un estudio y caracterización de las condiciones de vida de la Isla de San Andrés
    (Universidad Nacional de Colombia, 2024-12-18) Bravo Bolaño, Kevin; Pérez Agamez, Raúl Alberto; Bravo Bolaño, Kevin[0002024262]; Bravo Bolaño, Kevin [0000-0001-6599-6038]; https://www.researchgate.net/profile/Kevin-Bravo-3; Grupo de Investigación en Estadística
    El Análisis de Correspondencia Múltiple (ACM) permite asociar y describir relaciones entre variables de un conjunto de datos, generalmente encuestas socio-económicas, a través de tablas de contingencia, y permite visualizar la conformación de conglomerados de categorías e individuos con características similares entre sí a través de la representación geométrica de éstos sobre ejes factoriales. En este sentido, se utilizó el ACM para, en primer lugar, analizar la asociación de variables categóricas que representan las condiciones de vida de la isla de San Andrés, Colombia, desde dos enfoques: Caracterización Laboral y Caracterización del Hogar. En segundo lugar, se analiza de manera estática los cambios que han tenido las categorías de las condiciones de vida desde los aspectos laborales y el bienestar de la familia en un periodo de 10 años. Para este fin se utilizaron los datos de la Encuesta Nacional de Calidad de Vida (ENCV) del Departamento Administrativo Nacional de Estadísticas (DANE) de los años 2011 y 2021 del Departamento Archipiélago de San Andrés, Providencia y Santa Catalina. Las variables seleccionadas para analizar las condiciones de vida surgieron principalmente de los estudios realizados por Blomquist (2006); Diener and Suh (1997) y Tsurumi and Managi (2017): condiciones de la vivienda, características del hogar, mercado laboral, educación, seguridad social, servicios públicos, entre otros. Los principales resultados arrojaron que el ACM genera un plano factorial donde clasifica las categorías y los individuos con las condiciones de vida menos favorables al lado izquierdo y al lado derecho las condiciones de vida más favorables, tanto para la caracterización laboral como la caracterización del hogar. (Tomado de la fuente)
  • Item type: Ítem ,
    Implementation of flexible lifetime distributions in regression models to estimate survival times
    (Universidad Nacional de Colombia, 2023) Mosquera Gutiérrez, Jaime; Hernández Barajas, Freddy; Mosquera Gutiérrez, Jaime [0000-0002-1684-4756]
    In the fields of reliability engineering and survival analysis, it is common to find experiments from which data characterized by non-monotonic hazard functions—such as bathtub-shaped or unimodal functions—can be obtained. To model datasets like those mentioned, flexible lifetime distributions are frequently proposed. However, many of these distributions are not yet implemented in statistical software for fitting regression models. In this context, we have developed the EstimationTools R package, which offers a general-purpose framework for fitting and evaluating distributional regression models. This framework employs a syntax that mirrors mathematical notation. We leveraged maximum likelihood estimation and computed the log-likelihood function just using the probability mass/density function implemented in the R global workspace. Our framework is particularly suited for datasets where the response variable follows a flexible lifetime distribution, thereby enabling users to estimate distribution parameters in relation to covariates, even with censored data. It also provides graphical diagnostic tools through Martingale, Cox-Snell, Deviance and Randomized Quantile Residuals. The software has been tested on well-known datasets from health sciences and reliability studies, demonstrating its potential to develop models for applications such as flood prediction, churn analysis, credit risk modeling, recidivism, and student dropout. Overall, our work represents a versatile alternative for fitting parametric time-to-event models. (Tomado de la fuente)
  • Item type: Ítem ,
    Aplicación de un modelo de edad-periodo-cohorte (APC) para los casos de mortalidad por una enfermedad específica en la población colombiana
    (Universidad Nacional de Colombia, 2024-10-18) Moreno Carmona, Gustavo Adolfo; Ramírez Guevara, Isabel Cristina; Cardona Jimenez, Johnatan; Moreno-Carmona, Gustavo [https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002201932]; Moreno Carmona, Gustavo Adolfo [0009-0009-4734-8964]; Grupo de Investigación en Estadística de la Escuela de Estadística de la Universidad Nacional de Colombia sede Medellín (GIEMED)
    Los modelos estadísticos que relacionan tasas de mortalidad con las variables edad, periodo y la cohorte de nacimiento (conocidos como modelos APC), son frecuentemente empleados en estudios epidemiológicos y sociales. Este estudio pretende valorar a partir de los datos de mortalidad por diabetes en Colombia, el efecto de estas tres variables predictoras sobre estas tasas de mortalidad. Se proponen los modelos de regresión Poisson y Binomial Negativa con los que se obtienen las tasas de mortalidad, posteriormente el ajuste se hará a cada modelo utilizando la distribución Gamma Inversa y SBeta2 como distribuciones a priori para los parámetros de varianza de los efectos temporales edad, periodo y cohorte. Se realizan comparaciones entre los modelos por medio del Deviance Information Criterion (DIC), finalmente se evalúan calculando la Raíz del Error Cuadrático Medio (RMSE) entre los valores reales y de predicción para el último periodo, que no se tendrá en cuenta en los ajustes del modelo. (Tomado de la fuente)
  • Item type: Ítem ,
    Comparación de metodologías utilizadas para abordar el problema de datos faltantes en estudios longitudinales
    (Universidad Nacional de Colombia, 2024) Viloria Rodriguez, Andres Felipe; Mazo Lopera, Maurio Alejandro
    En este estudio se compararon distintas metodologías utilizadas en la literatura para abordar el problema de datos faltantes en estudios longitudinales. Se consideraron tres condiciones propuestas por \cite{rubin1976} para la generación de datos faltantes: Perdidos Completamente al Azar (MCAR), Perdidos al Azar (MAR) y No Perdidos al Azar (NMAR). Se utilizaron dos bases de datos longitudinales provenientes del Portal de Datos Abiertos del Estado Colombiano, las cuales fueron ajustadas mediante modelos lineales mixtos. Posteriormente, se generaron datos faltantes bajo las tres condiciones antes mencionadas y se aplicaron diferentes métodos de imputación. Se compararon los modelos imputados utilizando el Root Mean Squared Error (RMSE) y se observó que el método Last Observation Carried Forward (LOCF) tuvo un mejor rendimiento en la mayoría de los casos. Además, se analizó la variabilidad en la precisión del modelo por departamento y se encontraron diferencias significativas entre los métodos de imputación. Se concluyó que la elección del método de imputación puede tener un impacto en la interpretación de los resultados del modelo y se hicieron recomendaciones para futuras investigaciones, como explorar otros métodos de imputación y considerar el impacto de la imputación en la precisión de las predicciones del modelo en estudios longitudinales. En resumen, este estudio destaca la importancia de abordar cuidadosamente el problema de datos faltantes y seleccionar el método de imputación más adecuado para obtener resultados precisos y fiables en estudios longitudinales.
  • Item type: Ítem ,
    Modelo para la detección de errores asociados a la liquidación de la factura de energía en Antioquia
    (Universidad Nacional de Colombia, 2024) Arboleda Restrepo, Juan Sebastián; Hernández Barajas, Freddy; Arboleda Restrepo, Juan Sebastián; Arboleda Restrepo, Juan Sebastián; Arboleda Restrepo, Juan Sebastián; Arboleda Restrepo, Juan Sebastián; Arboleda Restrepo, Juan Sebastián
    Utility companies have the responsibility to ensure correct billing to their customers. However, products such as electricity, where regulatory factors, the volume of data, the number of associated variables, the limited time for review and controls, represent a challenge of great magnitude. Most companies perform these controls on samples of the population. The objective of this work is to enable a statistical solution that allows to review the totality of customers, that is, a 100 percent coverage of the collections, prioritizing the operational reviews in cases of error. This research uses two models from which the one with the best performance is selected, the first one is a statistical model and the second one is a machine learning model.
  • Item type: Ítem ,
    Hourly electricity consumption forecasting for Antioquia-Colombia using statistical-machine learning models
    (Universidad Nacional de Colombia, 2024) Restrepo Gil, Adiel Ignacio; Giraldo Gómez, Norman Diego
    Energy sector plays a fundamental role in encouraging a country's economic growth and social progress due to its functionality as an input for productive processes and as a public service asset that provides greater welfare to the population. Electricity consumption forecasting is a valuable instrument for policy-makers to guide pricing, taxation and investment decisions, as well as energy and operational security planning, helping to ensure a continuous supply of electricity and reducing cost overruns associated with the provision of energy distribution services. The aim of this research is to forecast hourly electricity consumption in Antioquia-Colombia using Statiscal-Machine Learning models with exogenous variables such as day-type and maximum temperature. The results show that LSTM Neural Network can be an efficient model for the operational deployment of electricity distribution since its average electricity supply error for an operational week is estimated to be around 493 MWh, while XM Market Operator's benchmark model obtained an error of 3420 MWh during the evaluated week. (Tomado de la fuente)
  • Item type: Ítem ,
    Análisis del rendimiento académico y de los resultados en Pruebas Saber 11° usando Técnicas Estadísticas Multivariadas (TEM) como un insumo de autoevaluación de un colegio de Medellín
    (Universidad Nacional de Colombia, 2024-01-30) Giraldo Salguero, Iván Andrés; Pérez Agamez, Raúl Alberto, Ph.D; Pérez Agamez, Pérez Agamez, Raúl Alberto Raúl Alberto; Giraldo Salguero, Iván Andrés [0009-0004-6544-2771]
    El éxito de un colegio depende en gran medida de su nivel académico, que se puede evaluar a través del rendimiento de los estudiantes en las asignaturas que cursan a lo largo de sus años académicos, así como a través de los resultados en pruebas externas como las Pruebas Saber 11°. Estas pruebas son presentadas por todos los estudiantes de grado 11° en Colombia bajo la supervisión del Ministerio de Educación Nacional (MEN, 2015). Los resultados de estas pruebas otorgan a los colegios una clasificación a nivel nacional, lo que representa un elemento crucial para que nuevas familias elijan una institución educativa como modelo académico para sus hijos. Las Pruebas Saber tienen un impacto significativo en la calificación de un colegio en Colombia. Estas pruebas, administradas por el Instituto Colombiano para la Evaluación de la Educación (ICFES), son una herramienta importante para medir el desempeño académico de los estudiantes en áreas clave como matemáticas, ciencias naturales, ciencias sociales y comprensión lectora. Los resultados de las Pruebas Saber se utilizan para evaluar el nivel de logro de los estudiantes en relación con los estándares educativos establecidos por el Ministerio de Educación Nacional. Además, estos resultados se utilizan para clasificar a las instituciones educativas en diferentes categorías de rendimiento, que van desde A+ (más alto rendimiento) hasta D (más bajo rendimiento). En el presente estudio, se evaluó una base de datos de un colegio en Medellín que incluía 2586 observaciones de información académica de los estudiantes, recopilada durante tres años, desde 2019 hasta 2021. Esta información abarcó los grados sexto a undécimo. Inicialmente, se llevó a cabo un análisis descriptivo de los promedios de calificaciones generados por los estudiantes de sexto a undécimo grado. Posteriormente, se aplicó la técnica estadística multivariada conocida como Análisis de Componentes Principales (ACP). A partir de este análisis, se presentó una tabla de valores propios para cuantificar la varianza explicada por cada componente principal. Luego, se seleccionaron las seis primeras componentes principales, que explicaban la mayor variabilidad posible de los datos en cada grado. Finalmente, se identificó que la propuesta académica del colegio, junto con los resultados en las asignaturas, contribuye a la mejora de los resultados en las pruebas Saber. Palabras claves: Análisis multivariado, Análisis multivariable, Técnicas estadísticas multivariadas (TEM), Pruebas Saber 11°, Análisis de componentes principales (ACP). (Tomado de la fuente)
  • Item type: Ítem ,
    Modelado de cuantiles marginales en presencia de datos faltantes mediante la clase de modelos de regresión con distribución normal/independiente multivariada
    (Universidad Nacional de Colombia, 2024) Escobar Arias, Jose Antonio; Mazo Lopera, Mauricio Alejandro
    En este trabajo de investigación, se propone el desarrollo de un modelo de regresión lineal con respuesta multivariada asociado a la clase de distribuciones normal/independiente multivariadas. El objetivo principal es lograr el modelado de cuantiles marginales bajo la presencia de datos faltantes, teniendo en cuenta la asociación entre las variables del vector de respuesta. Se emplea un enfoque Bayesiano, aprovechando las herramientas que este ofrece, como también algoritmos (que serán descritos posteriormente) para llevar a cabo el proceso de imputación y aproximación de distribuciones posteriores. La validez del modelo se evalúa mediante estudios de simulación, que confirman el desempeño satisfactorio en el proceso de estimación de los parámetros. Además, se presenta una aplicación práctica del modelo a un conjunto de datos reales, proporcionando así una validación adicional de su utilidad y aplicabilidad en contextos empíricos. (Tomado de la fuente)
  • Item type: Ítem ,
    Factores que influyen en el tiempo que transcurre hasta que un paciente ingresa por problemas respiratorios a urgencias en San Vicente de Chucurí, Santander
    (Universidad Nacional de Colombia, 2023) Pinilla Sánchez, Lizeth Paola; Salazar Uribe, Juan Carlos; Pinilla Sánchez, Lizeth [0001668384]; Pinilla Sánchez, Lizeth [0009-0002-2392-9341]
    Los métodos de análisis de supervivencia son utilizados para examinar los cambios a lo largo del tiempo en un evento específico (Dudley y cols., 2016). Estudiar el tiempo que transcurre hasta que ocurre un evento, se ha tornado relevante en estudios científicos, especialmente para los investigadores del área de la salud. El análisis adecuado de este tiempo ayuda a prevenir enfermedades y analiza avances o efectividad de tratamientos de enfermedades, golpes por accidentes o problemas de salud y por lo tanto puede tener un gran impacto en la sociedad. En el presente trabajo se propone, por medio de métodos estadísticos como el de Kaplan-Meier (Kaplan Meier, 1958) y el modelo de riesgos proporcionales de Cox (1972), identificar los factores influyentes para que una persona de San Vicente de Chucurí, Santander deba acceder al servicio de urgencias por problemas respiratorios. (Tomado de la fuente)
  • Item type: Ítem ,
    Planteamiento de un modelo de focalización para población vulnerable con inseguridad alimentaria en el Distrito Especial de Ciencia, Tecnología e Innovación de Medellín, basado en Teoría de Respuesta al Ítem (TRI)
    (Universidad Nacional de Colombia, 2024-04-22) Agudelo Agudelo, Carlos Andres; Hernández Barajas, Freddy
    Esta tesis se basa en el planteamiento de un modelo de focalización para la población vulnerable con inseguridad alimentaria en el Distrito Especial de Ciencia, Tecnología e Innovación de Medellín, específicamente en la Comuna 2 – Santa Cruz. El objetivo principal es mejorar el proceso de selección de los beneficiarios con el fin de optimizar la ejecución de los recursos públicos y mejorar la calidad de vida de las personas en situación de pobreza extrema e inseguridad alimentaria. El estudio utiliza la Teoría de Respuesta al Ítem (TRI) para validar la pertinencia de la aplicación de la Escala Latinoamericana y Caribeña de Seguridad Alimentaria (ELCSA) en los candidatos a los diferentes proyectos sociales. Por último, se aplican modelos de regresión logística y se evalúa la exactitud de estos (texto tomado de la fuente)
  • Item type: Ítem ,
    Modelamiento de casos de malaria en la región de Ashanti-Ghana usando regresión logística, Machine Learning y discriminante lineal de Fisher
    (Universidad Nacional de Colombia, 2024-04-19) Mosquera Renteria, Javier; Salazar Uribe, Juan Carlos; https://orcid.org/0009-0004-7105-461X
    A nivel mundial, se han logrado importantes avances en la reducción de casos de malaria; sin embargo, la enfermedad sigue siendo un problema desafiante en la salud pública de Ghana. Aproximadamente, entre el 40 y el 60% de las personas son hospitalizadas debido a esta enfermedad. A pesar de ello, el examen mediante el uso del microscopio sigue siendo el mejor método en todo el mundo para determinar si un paciente tiene o no el parásito de la malaria. Este estudio buscó determinar si los parámetros hematológicos, la edad y el género de los pacientes podrían usarse para predecir la malaria mediante el uso de modelos de regresión logística, naive Bayes, análisis discriminante lineal de Fisher y K vecinos más cercanos. Con estos modelos, que forman parte del aprendizaje automático, se buscó determinar en qué medida se podría estimar la probabilidad de que un paciente tenga o no la enfermedad de la malaria. Se evaluó qué tan buenas alternativas son estos modelos para estimar la probabilidad de tener la enfermedad. Utilizando R, se determinó la capacidad predictiva de los modelos considerados, así como la elección del mejor modelo según algún criterio estadístico, mediante el uso de datos reales. En este estudio, se observó que la prevalencia de casos de malaria fue del 25.95%, siendo los niños menores de 5 años los más afectados, alcanzando el 29.98% (206 de 687), seguidos por niños entre 5 y 14 años de edad, con un 45.30% (164 de 362). El mejor modelo de los cuatro se utilizará para mejorar el diagnóstico de la malaria en pacientes; en este caso, el mejor modelo por su interpretabilidad y mayor capacidad predictiva de casos de malaria fue la regresión logística, demostrando un área bajo la curva de 81.5%. La especificidad y sensibilidad fueron del 74.6% y 79.89%, respectivamente, con un valor predictivo positivo del 39.8% y un valor predictivo negativo del 94.6%. (Tomado de la fuente)
  • Item type: Ítem ,
    Probabilistic forecasting of electricity demand in Colombia
    (Universidad Nacional de Colombia, 2024-04-09) Mosquera Cabra, Jennifer; López Ríos, Víctor Ignacio; Gallón Gómez, Santiago
    New approaches have emerged in the field of uncertainty measurement, offering ways to estimate models and their corresponding confidence levels for point predictions. Our first purpose is to compare the predictive capabilities of some models built for forecasting daily electricity demand in Colombia. Initially, we employ generalized linear models, followed by Machine Learning models such as ensemble learning models, support vector machines (SVM), and finally deep learning models. The goal is to determine which model demonstrates superior predictive accuracy in forecasting daily electricity demand in Colombia. In order to evaluate their performance, we mainly use Mean Absolute Percentage Error (MAPE) as a comprehensive measure, which allows us to evaluate their effectiveness in capturing the actual demand values. And also take into account the mean absolute error (MAE) and the root mean squared error (RMSE). Next, we turn our attention on the creation of prediction intervals to handle the uncertainty in our forecasts. We use techniques like Bootstrapping to figure out these intervals. We also incorporate conformal prediction to improve the reliability of our intervals. Our prediction intervals are evaluated primarily based on their coverage percentage. This will allow us to see how frequently our prediction intervals correspond to the actual demand from this data. Through this combination of methods, our goal is to establish a robust and user-friendly framework for forecasting daily electricity demand in Colombia. The results of this development suggest that (1) for the daily energy demand of Colombia, with the variables obtained at a daily frequency, a simple model such as a regularized model works better than an advanced and much more complex model such as a deep learning model. (2) Regarding feature selection concerns, the most important variables are the energy demand lags and demand structure variables for the Lasso model, which works as a feature selection method, due to its regularization nature. This confirms that the inclusion of lags or having an autocorrelated structure is important in this type of problem. Finally, for the forecast intervals, in which we used two methods, the first and most common was the bootstrap method and the second, whose development is more recent, is the conformal Prediction. The construction of our prediction intervals allowed us to give a 99 % confidence level to the point prediction and not just rely on the comparison between the actual and predicted values. (Tomado de la fuente)
  • Item type: Ítem ,
    Análisis comparativo de metodologías de pronóstico para múltiples series de tiempo de conteos
    (Universidad Nacional de Colombia, 2024-04-16) Betancur Rodríguez, Daniel; Cabarcas Jaramillo, Daniel; Gonzáles Alvarez, Nelfi Gertrudis
    El pronóstico de series de tiempo de conteos es un caso particular de interés para la asignación óptima de capacidades e inventarios acorde a la demanda esperada, entre otras aplicaciones. Para abordar el pronóstico de las series de tiempo de conteos se han propuesto modelos estadísticos como los modelos autorregresivos para series de conteo o los modelos dinámicos generalizados. Por otro lado, se han aplicado metodologías basadas en algoritmos de machine learning apalancándose en la creciente potencia computacional, como las redes neuronales recurrentes y las arquitecturas basadas en algoritmos de atención, llamadas Transformers. El presente trabajo explora el problema del pronóstico paralelo de múltiples series de conteo, aplicando metodologías propias de la estadística y el machine learning en diversos escenarios de simulación en los cuales se compara la calidad de pronóstico, el tiempo computacional demandado y el esfuerzo para adaptar las metodologías a casos reales (texto tomado de la fuente)
  • Item type: Ítem ,
    Una aplicación de redes neuronales y modelos autorregresivos para la estimación de valores de referencia de swaps
    (Universidad Nacional de Colombia, 2023) Posada Zuluaga, Juan Manuel; Gómez Vélez, César Augusto
    En este trabajo se realiza una aplicación de redes neuronales y modelos autorregresivos para la estimación del valor de referencia de un swap de tasa de interés teniendo en cuenta el ajuste de valoración por riesgo de crédito de la contraparte (CVA) y el ajuste de valoración de riesgo de crédito de la entidad (DVA) entre dos emisores del sector financiero local. Inicialmente, se utiliza como base del análisis la curva forward IBR, de la cual, se generan diez series de tiempo, cada una relacionada con los periodos de liquidación de los pagos del swap. Para cada serie, se ajusta un modelo de red neuronal y un modelo ARIMA-GARCH, y se evalúan sus respectivas métricas de prueba, con el objetivo de hacer comparaciones entre ellos. Luego, utilizando los modelos obtenidos, se realiza el pronóstico de la curva forward IBR para el siguiente día hábil. Así mismo, se estima la probabilidad de default en cada fecha de liquidación a partir de los respectivos Asset swap spread de los bonos corporativos de los emisores. Posteriormente, se estima el valor razonable del swap a partir del valor libre de riesgo y sus respectivos ajustes. Finalmente, los resultados muestran que para el rango de fechas analizado la valoración estimada a partir del modelo ARIMA-GARCH presenta un menor error de pronóstico en comparación con el modelo de red neuronal, lo que sugiere una mayor precisión en la estimación del valor de referencia del swap. (texto tomado de la fuente)
  • Item type: Ítem ,
    Comparación de la metodología BART con otros métodos no paramétricos en la construcción de intervalos de predicción
    (Universidad Nacional de Colombia, 2023) Osorio Londoño, José Arturo; Ramírez Guevara, Isabel Cristina
    En los últimos años, el uso de algoritmos de aprendizaje automático ha experimentado un rápido crecimiento en una amplia variedad de aplicaciones prácticas, así como un gran interés en la investigación teórica. Estas aplicaciones se centran en gran medida en problemas de predicción, donde el valor desconocido de una variable se estima en función de variables conocidas vinculadas a través de alguna función. Estos modelos se han vuelto cruciales en diversos campos, desde la gestión de calidad y el control industrial de procesos hasta la gestión de riesgos y la detección de enfermedades en el ámbito de la salud. A pesar de sus propiedades ventajosas y su popularidad, estos modelos sufren de una desventaja significativa: solo producen predicciones puntuales sin proporcionar ninguna medida de incertidumbre a estás predicciones. En esta investigación, evaluamos la capacidad de los Árboles de Regresión Aditivos Bayesianos (BART) frente a técnicas diseñadas para modelos de Random Forest y Gradient Boosting, así como heurísticas (método conformacional) y modelos clásicos como la regresión lineal y la regresión cuantílica,para generar intervalos de predicción. Se realizó un estudio de simulación bajo diferentes escenarios, y los métodos fueron validados utilizando un conjunto final de datos de aseguramiento de calidad. Los estudios de simulación revelaron que BART puede proporcionar intervalos de predicción (con una cobertura del 95% y 90% ) que engloban correctamente el verdadero valor predicho en la mayoría de los casos. En el caso de estudio, BART fue el mejor modelo en la generación de intervalos de predicción y en la precisión de las predicciones. Estos resultados resaltan el potencial de BART como una alternativa significativa para tareas de regresión en áreas críticas, donde predicciones precisas, modelamiento flexible y medidas de confianza en las predicciones son necesarias. (texto tomado de la fuente)
  • Item type: Ítem ,
    Predicción espacial de ventas mediante enfoques bayesianos y aprendizaje automático utilizando datos de área
    (Universidad Nacional de Colombia, 2023-12-14) Martinez Osorio, Jhair Santiago; Rodríguez Cortés, Francisco Javier; 0000-0002-7752-7228
    En este trabajo se comparan diferentes técnicas estadísticas y la metodología bayesiana de aproximación INLA para el análisis y pronóstico temporal, espacial y espacio-temporal de las ventas textiles de una compañía en la costa este de los Estados Unidos desde el año 2017 hasta el año 2022.