Maestría en Ciencias - Estadística
URI permanente para esta colecciónhttps://repositorio.unal.edu.co/handle/unal/82420
Examinar
Envíos recientes
Item type: Ítem , Implementación de métodos para predecir las interacciones proteína-proteína con base en datos genómicos entre humano-patógeno(Universidad Nacional de Colombia, 2025) Orjuela Lagos, Vanessa; López Kleine, Liliana; Cuesta Astroz, Yesid; Grupo de Investigación en Bioinformática y Biología de SistemasLas etapas críticas en la biología de un patógeno están mediadas principalmente por interacciones proteína-proteína entre el hospedero y el patógeno. Para comprender estos procesos y desarrollar alternativas terapéuticas, es fundamental identificar dichas interacciones a nivel molecular. Sin embargo, las bases de datos que recopilan interacciones experimentales son limitadas debido a los altos costos y la complejidad de los experimentos. Este trabajo tiene como objetivo comparar y evaluar distintos métodos computacionales para predecir interacciones proteína-proteína intraespecie, con el fin de adaptarlos y extenderlos hacia la predicción de redes de interacción proteína-proteína interespecie. Para ello, se emplearon datos genómicos y postgenómicos de acceso público, centrándose en la interacción entre el virus de inmunodeficiencia humana (VIH) y Homo sapiens, cuyo conjunto de datos experimentales de referencia está disponible. La predicción de estas interacciones se abordó mediante métodos de análisis canónico del kernel (KCCA) y aprendizaje de máquina supervisado, integrando datos ómicos a través de kernels. Los resultados muestran que el método KCCA no logró predecir de manera efectiva la red de interacción de proteínas, mientras que los modelos de aprendizaje automático sí lo hicieron. En particular, los mejores modelos se obtuvieron mediante el balanceo de los datos, combinando el submuestreo de la clase mayoritaria (0 = no interacción) y la generación de datos sintéticos para ajustar la proporción de clases, dado que la red de referencia (1 = interacción) es muy pequeña. Estos modelos aprovecharon un kernel integrado teniendo en cuenta pesos para cada tipo de datos, lo que permitió mejorar la capacidad predictiva en un contexto de datos altamente desbalanceados. (Texto tomados de la fuente)Item type: Ítem , Modelo estocástico para la propagación del dengue: una simulación del brote de la enfermedad en el Valle del Cauca(Universidad Nacional de Colombia, 2025) Becerra Becerra, Diego Alejandro; Arunachalam, Viswanathan; Diego Alejandro Becerra Becerra [0001838029]; Diego Alejandro Becerra Becerra [0009000352523559]El dengue es una enfermedad viral transmitida a los seres humanos por la picadura de mosquitos hembra infectados. En este estudio se analiza la variabilidad, la tendencia y las fluctuaciones estacionales en la dinámica de transmisión del virus en el Valle del Cauca, Colombia. Para ello, se plantea un modelo compartimental de tipo SIR-SI con estructura huesped-vector, mediante ecuaciones diferenciales estocásticas (EDE), que incorpora la estratificación de la población por grupos de edad: jóvenes (0--17 años) y adultos (18 años o más). Las simulaciones y pronósticos se realizaron mediante el método de Euler–Maruyama, a partir de parámetros fijos y condiciones iniciales obtenidos de estudios previos, junto con estimaciones relacionadas con la dinámica de la enfermedad y datos del Sistema de Vigilancia en Salud Pública (SIVIGILA) correspondientes al período 2013--2023. Adicionalmente, se implementa un modelo SARIMA (Seasonal Autoregressive Integrated Moving Average) como herramienta complementaria para el análisis y pronóstico de casos de dengue. (Texto tomado de la fuente).Item type: Ítem , Causalidad de Granger entre iliquidez y volatilidad en el mercado financiero colombiano(Universidad Nacional de Colombia, 2025) Rivera Briceño, Andrés Felipe; Sosa Martínez, Juan CamiloEn la teoría, se postula una relación causal entre la volatilidad del precio de un activo y su iliquidez en el mercado. En este contexto, se plantea la hipótesis de que una de estas variables podría mejorar el pronóstico de la otra al incluirla en un conjunto de variables predictoras. Es decir, una de ellas podría causar la otra según el concepto de Granger, lo que sería relevante para gestionar el riesgo de una cartera de inversión. Esta idea ha motivado diversos estudios, principalmente en mercados financieros desarrollados. Sin embargo, las conclusiones de estos estudios son divergentes debido a la complejidad y particularidades de cada mercado. Esto presenta un desafío para la gestión de riesgos de activos financieros en Colombia, ya que se asume que el comportamiento de estas variables se replica en este mercado, que difiere de los mercados estudiados en la literatura. En el presente documento se prueba la existencia y la dirección de la relación ‘‘causal’’ en el sentido de Granger entre iliquidez y volatilidad en el mercado financiero colombiano por medio de metodologías tradicionales de series de tiempo, tales como la prueba de causalidad de Granger, y metodologías aplicadas del campo de redes neuronales y aprendizaje automático como la prueba de Wilcoxon sobre los errores de predicción, penalizaciones aplicadas a modelos Long-Short Term Memory y Multi Layer Perceptron, y Granger-Causal Attentive Mixture of Experts. (Texto tomado de la fuente)Item type: Ítem , Selección de variables en modelos de regresión logística usando regularización(Universidad Nacional de Colombia, 2025) Agudelo Rico, Harold Daniel; Vanegas Penagos, Luis HernandoCon el propósito de desarrollar un mecanismo probabilístico que modele el comportamiento natural de un fenómeno dicotómico, garantizando estabilidad, generalización, interpretabilidad, precisión y la estimación de parámetros, mientras selecciona variables y evita problemas de multicolinealidad, se implementan modelos lineales generalizados regularizados con respuesta binomial y enlace logístico. Para validar estas características, en particular la capacidad de selección de variables, se propone comparar esta metodología en términos de AUC con las técnicas clásicas. Estas últimas incluyen el modelo lineal generalizado con respuesta binomial y enlace logit, utilizando métodos de ajuste como el AIC (Criterio de Información de Akaike) y estrategias de selección de variables como forward, backward y stepwise. (Texto tomado de la fuente).Item type: Ítem , Pronóstico del riesgo de mercado a partir de modelos en tiempo continuo(Universidad Nacional de Colombia, 2025) Acevedo Pérez, Juan Felipe; Hoyos Gómez, MilenaEsta investigación contrasta el desempeño predictivo del modelo COGARCH en tiempo continuo frente a metodologías discretas ampliamente adoptadas en la práctica de gestión de riesgos, como la Simulación Histórica, el EWMA y el GARCH, al aplicarlas al pronóstico intradía del Valor en Riesgo (VaR). Con datos de alta frecuencia de activos financieros representativos, se evaluó la capacidad de cada modelo para generar pronósticos adecuados mediante pruebas de backtesting estándar bajo un esquema de ventanas móviles. Los resultados muestran que, en los casos analizados, el COGARCH logra una cobertura más consistente y supera pruebas en las que los modelos discretos son rechazados, evidenciando su mayor capacidad para capturar la dinámica de riesgo en alta frecuencia. Este trabajo aporta así evidencia empírica que respalda la aplicación de marcos en tiempo continuo para la gestión del riesgo intradía, posicionando al COGARCH como una alternativa metodológica robusta y de gran potencial para la cuantificación precisa de riesgos en mercados de alta frecuencia. (Texto tomado de la fuente)Item type: Ítem , Modelo de agrupamiento jerárquico con doble instancia de agrupación(Universidad Nacional de Colombia, 2025) García Montoya, Andrea Catalina; Sosa Martínez, Juan CamiloEste trabajo presenta una variante del modelo de bloques estocásticos que implementa un enfoque de agrupamiento jerárquico en dos niveles distintos. En primera instancia, el modelo realiza una agrupación de los nodos individuales en bloques, para posteriormente ejecutar un segundo nivel de agrupamiento donde los bloques iniciales son reorganizados en estructuras de segundo orden. La metodología se fundamenta en un marco Bayesiano riguroso, empleando algoritmos de Cadenas de Markov Monte Carlo (MCMC) para la estimación de parámetros e inferencia de la estructura latente. La validación del modelo propuesto se realiza mediante un análisis en dos contextos: redes simuladas con características estructurales diversas y controladas, y redes empíricas de naturaleza heterogénea, incluyendo comunidades de áreas corticales cerebrales y redes de interacciones sociales. Finalmente, se presenta un análisis meticuloso de la convergencia de las cadenas MCMC para los parámetros mas significativos del modelo, así como una evaluación comparativa de la precisión en la recuperación de estructuras latentes, organizaciones multinivel y la bondad de ajuste a los datos observados. (Texto tomado de la fuente).Item type: Ítem , Modelamiento Bayesiano No Paramétrico Multinivel(Universidad Nacional de Colombia, 2025) Cruz De Paula, Laura Camila; Sosa Martínez, Juan CamiloEste trabajo presenta el desarrollo de un modelo Bayesiano no paramétrico multinivel que permite estimar relaciones lineales en conjuntos de datos heterogéneos, al mismo tiempo que identifica agrupaciones sin necesidad de especificar previamente el número de grupos. El estudio incluye el desarrollo matemático del modelo utilizando el Proceso de Restaurante Chino y la implementación de algoritmos para su ajuste. Los resultados obtenidos a partir de simulaciones y datos reales muestran que el modelo tiene un buen rendimiento tanto en la agrupación de datos como en la caracterización de relaciones lineales, logrando resultados comparables a los obtenidos por métodos paramétricos tradicionales (Texto tomado de la fuente).Item type: Ítem , Raíces matriciales de matrices estocásticas(Universidad Nacional de Colombia, 2025) Calceteros, Cristian Erickson; Jiménez Moscoso, José Alfredo; Jiménez Moscoso, José Alfredo [0000000223912809]Las cadenas de Markov de tiempo discreto han sido ampliamente utilizadas para modelar procesos que evolucionan con el tiempo en diversos campos, como son la evaluación del riesgo de crédito en la industria financiera (Higham & Lin [2011]), el progreso de enfermedades crónicas (Charitos et al. [2008]), la planificación de mano de obra disponible por periodos (Guerry [2014]) y la predicción del estado del tiempo en aeropuertos (Jacquillat [2012]), entre otros. En estos modelos, la estimación de la matriz de transición suele estar restringida a un periodo de tiempo determinado. Sin embargo, en muchas aplicaciones se requiere conocer la evolución del sistema en escalas temporales menores a las de la estimación original. En este contexto, y basándose en conceptos de matrices estocásticas, descomposiciones matriciales y teoría de raíces matriciales, este trabajo se enfoca en caracterizar las condiciones bajo las cuales una matriz estocástica dada admite una raíz estocástica de orden m, así como en el desarrollo de algunos algoritmos para su obtención. Se presentan resultados para matrices estocásticas de tamaños 2 × 2, 3 × 3 y 4 × 4 en términos de sus valores propios, trazas y determinantes. Adicionalmente, se analizan casos en los que aparecen matrices estocásticas con estados absorbentes y matrices doblemente estocásticas, contribuyendo así al estudio teórico y computacional de las raíces de matrices estocásticas (Texto tomado de la fuente).Item type: Ítem , Desarrollo de una aplicación para la construcción de mapas de conocimiento generados por un tema de investigación(Universidad Nacional de Colombia, 2025-05-07) Castrellón Torres, Jairo; Pardo Turriago, Campo ElíasEl uso de herramientas para la construcción de mapas de conocimiento con base en un tema de investigación se hace cada vez más necesario en el mundo de la producción académica debido a la velocidad con la que se está generando nuevo conocimiento y la gran capacidad de los medios digitales para poner esta información a disposición de los interesados en las diferentes bases de datos. Estos mapas de conocimiento se han convertido en guías importantes para los investigadores, en la medida en que les permite tener un amplio panorama del flujo que presenta su tema de interés, de tal manera que visualicen las áreas y subáreas más relevantes en su investigación. Este trabajo pretende ofrecer una alternativa a las herramientas que ya existen (mediante una aplicación), haciendo un análisis más exhaustivo en la generación de palabras y conceptos clave que se puedan inferir de la información básica de un texto investigativo, para posteriormente agrupar los textos y construir los respectivos mapas de conocimiento. (Texto tomado de la fuente).Item type: Ítem , Modelo multinivel como herramienta para el análisis interseccional de los datos de la Encuesta Nacional de Uso del Tiempo 2020-2021(Universidad Nacional de Colombia, 2024) Durán Mejía, Lina Sofía; Díaz Monroy, Luis GuillermoLa interseccionalidad establece que la superposición de factores como el género, la etnia o la zona donde se habita configuran desigualdades sistémicas, siendo un concepto muy utilizado en economía y política como un enfoque para el análisis de datos poblacionales, puesto que permite evaluar el nivel de afectación a los grupos sociales de situaciones específicas como una pandemia, el aumento del desempleo, la violencia, entre otros. Por tanto, se propone la construcción de un modelo multinivel con los datos de la Encuesta Nacional de Uso del Tiempo - ENUT 2020-2021, utilizando dichos factores interseccionales como variables de agrupamiento para modelar el número de horas utilizadas para trabajos no remunerados como la variable respuesta. Además, se realiza la comparación con los resultados obtenidos al aplicar a estos mismos datos la descomposición Oaxaca-Blinder, utilizada usualmente para procesos de análisis con enfoque interseccional. Se espera que los resultados puedan aportar información relevante para la construcción de políticas públicas con enfoques interseccional y de género en el país (Texto tomado de la fuente).Item type: Ítem , Corrección bayesiana del subregistro de la tasa de mortalidad por etnia en Colombia(Universidad Nacional de Colombia, 2025-04-11) Medina Rangel, Miguel Angel; Sosa Martinez, Juan Camilo; Urdinola Contreras, Beatriz PiedadEste estudio desarrolla un modelo bayesiano para corregir el subregistro de las tasas de mortalidad por etnia en Colombia, utilizando datos del censo de 2018 y registros de estadísticas vitales (CRVS). El modelo se basa en la metodología de áreas pequeñas (TOPALS), que emplea un enfoque flexible para ajustar las tasas de mortalidad específicas por edad, etnia y sexo. Este marco es especialmente útil para poblaciones con datos limitados o inconsistentes, ya que captura con precisión las variaciones de mortalidad en subpoblaciones. Uno de los principales desafíos abordados por este modelo es el subregistro de defunciones, que afecta de manera desproporcionada a los grupos étnico-raciales marginados. Al incorporar distribuciones previas sobre la cobertura de los registros de defunción, el modelo mejora la precisión de las estimaciones de mortalidad en estas poblaciones. El modelo se aplicó a cinco grupos étnico-raciales reconocidos por el censo colombiano: indígenas, afrodescendientes, palenqueros, raizales y población Rrom (gitana). Los resultados demuestran una mejora significativa en las estimaciones de las tasas de mortalidad, lo que proporciona una comprensión más clara de las disparidades en mortalidad entre estos grupos. Este enfoque ofrece proyecciones más confiables para el diseño de políticas públicas y sienta las bases para futuros trabajos sobre tablas de vida para cada grupo étnico. Estas tablas permitirán un análisis más detallado de la esperanza de vida y las condiciones de salud en las comunidades étnicas de Colombia, asegurando que las decisiones políticas futuras se basen en datos precisos e inclusivos. (Texto tomado de la fuente).Item type: Ítem , Estimador de la media ajustado por la probabilidad de respuesta estimada en encuestas muestrales en presencia de la no respuesta: métodos paramétricos y no paramétricos(Universidad Nacional de Colombia, 2024) Calderón Rodríguez, Cristhian Fernando; Polo González, Mayo LuzLos resultados derivados de las encuestas muestrales son un insumo importante para establecer políticas públicas. Sin embargo, algunos encuestados pueden no responder algunas o todas las preguntas en un cuestionario por diversas razones, lo que se conoce en la literatura de muestreo como no respuesta. Se pueden diferenciar dos tipos de no respuesta: A nivel de ítem y a nivel de unidad (o elemento). Existen diferentes métodos para tratar estos dos tipos de no respuesta, en específico, para la no respuesta a nivel de unidad una alternativa es hacer un ajuste de ponderación a los pesos muestrales multiplicándolos por la probabilidad de respuesta estimada. Esta probabilidad de respuesta se puede estimar a través de modelos con métodos paramétricos y no paramétricos. En este trabajo se evaluará el desempeño de un estimador de la media poblacional que usa la ponderación por la probabilidad de respuesta estimada a través del modelo de regresión logística y un modelo no paramétrico que permite el uso de variables continuas y discretas. Se realizará la estimación de dos indicadores con los datos del Cuarto Estudio Nacional de Salud Bucal (ENSAB IV). (Texto tomado de la fuente).Item type: Ítem , Estimación de proporción en áreas pequeñas: enfoque basado en aprendizaje automático(Universidad Nacional de Colombia, 2025-03) Bernal Malpica, Melanie; Trujillo Oyola, LeonardoEn los estudios de encuestas por muestreo, es común que los investigadores requieran estimaciones a nivel de dominios. Sin embargo, estos dominios suelen presentar una muestra reducida o incluso nula, lo que genera varianzas estimadas elevadas y, en consecuencia, estimaciones que no cumplen con los estándares de calidad requeridos. En los casos donde no hay muestra en un dominio específico, ni siquiera es posible calcular el estimador de interés utilizando el diseño muestral. Para abordar esta problemática, surge la metodología de estimación en áreas pequeñas (SAE, por sus siglas en inglés), que permite obtener estimaciones confiables a partir del uso de información auxiliar disponible para toda la población. Esta metodología emplea modelos estadísticos que combinan los datos muestrales con predicciones sobre las unidades no observadas, permitiendo así obtener estimaciones precisas, incluso en dominios sin muestra. Generalmente, se utilizan modelos lineales mixtos para variables continuas y modelos lineales generalizados mixtos en el caso de proporciones. Los modelos tradicionales requieren cumplir ciertos supuestos, como la relación lineal entre las variables auxiliares y la variable objetivo, así como la normalidad de los errores asociados. Además, presentan limitaciones como la multidimensionalidad y la sensibilidad a valores atípicos. Por esta razón, es necesario explorar enfoques más flexibles. El propósito de este trabajo es presentar una metodología basada en modelos de aprendizaje automático con efectos mixtos, que permite calcular los estimadores en áreas pequeñas sin depender de los supuestos lineales. Esta estrategia ofrece ventajas como la robustez ante valores atípicos y una mejor selección de variables. Sustituyendo el modelo lineal por un modelo de aprendizaje automático, se siguen los mismos pasos de estimación del parámetro y su medida de error según la metodología SAE. Finalmente, se realizará un ejercicio de simulación basado en el modelo para comparar las estimaciones, el error cuadrático medio y el sesgo de cada metodología evaluada. Los resultados muestran que los modelos propuestos constituyen una alternativa viable, ya que logran estimaciones similares a las metodologías tradicionales, obteniendo una ganancia frente a los supuestos en la metodología tradicional (Texto tomado de la fuente)Item type: Ítem , Evaluación de la habilidad predictiva de la regresión de soporte vectorial en series de tiempo multivariadas(Universidad Nacional de Colombia, 2024-10) Hurtado Moreno, Marlijar; Arrieta Prieto, Mario Enrique; Calderón, SergioEl estudio sobre la aplicación de la regresión de soporte vectorial (SVR) en series de tiempo multivariadas ha sido escaso, a pesar de las ventajas que ofrece este algoritmo en el análisis de series de tiempo univariadas, ya que facilita un modelado y pronóstico preciso, especialmente en situaciones donde las series son no lineales o no cumplen con los supuestos de los modelos tradicionales. Debido a estas ventajas, se presenta el interés por investigar si, en un contexto multivariado, el rendimiento de este algoritmo es más preciso para la predicción en comparación con un modelo clásico. Para ello, se ha desarrollado una rutina que permite implementar la regresión de soporte vectorial multivariada (MSVR), basada en el artículo ”Multi-step-ahead time series prediction using multiple-output support vector regression” (Bao, 2014), con el fin de evaluar la eficacia de la predicción en series multivariadas. Este algoritmo se ha adaptado considerando la estructura de autocorrelación presente en las series de tiempo multivariadas. Además, se ha puesto un énfasis especial en la selección del núcleo y los hiperparámetros óptimos, utilizando técnicas de búsqueda aleatoria que exploran eficientemente el espacio de posibles combinaciones de hiperparámetros para lograr predicciones precisas y generalizables (Texto tomado de la fuente).Item type: Ítem , Desarrollo de modelo de aprendizaje estadístico para la identificación del riesgo de lavado de activos y financiación del terrorismo(Universidad Nacional de Colombia, 2024) Muñoz Chamorro, Daniela Valentina; Corzo Salamanca, Jimmy AntonioEl presente trabajo propone el desarrollo de una metodología estadística efectiva para resolver el problema de no contar con un modelo para evaluar el riesgo de Lavado de Activos y Financiación del Terrorismo (LAFT) en los municipios de Colombia a partir de indicadores que aportan información sobre la situación social, económica y demográfica del municipio. Inicialmente se hace una revisión de la literatura para identificar y mostrar una evolución de las técnicas que han sido aplicadas para medir el riesgo LAFT en municipios de Colombia; en segundo lugar, se consolida la base de datos con los indicadores actualizados desde diferentes fuentes de información, consolidando 55 variables asociadas al riesgo de LAFT organizadas en ocho tablas según su temática principal. Finalmente, a través de un Análisis Factorial Múltiple (AFM) y agrupamiento jerárquico por componentes principales (HCPC), se segmentan a los municipios en cuatro grupos dependiendo de su nivel de riesgo LAFT, y se determinan los indicadores que más afectan a este resultado. Los resultados muestran que la metodología es eficaz para identificar áreas críticas y guiar la implementación de políticas de prevención del LAFT. Sin embargo, se reconoce la necesidad de mejorar la disponibilidad y actualización de los datos. (Texto tomado de la fuente).Item type: Ítem , Implementación de ajustes por valoración (XVA) una estimación para un nuevo cálculo de precios en derivados financieros de tasa de cambio(Universidad Nacional de Colombia, 2025) Poveda Agudelo, Héctor Julio; Jiménez Moscoso, José Alfredo; Poveda Agudelo, Héctor Julio [000900013920505X]; Jiménez Moscoso, José Alfredo [0000000223912809]La necesidad de reconsiderar y cuantificar mejor los ajustes de valoración en instrumentos derivados luego de las lecciones aprendidas desde la última gran crisis financiera. Hacen que esta investigación surja como una aplicación llevada al plano local en Colombia, a través de la tasa de cambio. Es así como se propone desplegar una metodología integrada a partir de la combinación de modelos de mercado y simulaciones de Monte Carlo. Los resultados evidenciados y consolidados para XVA presentan impactos no despreciables, los cuales si no valorados se traducen directamente en costos de oportunidad en la negociación y exposición adicional de riesgos (Texto tomado de la fuente).Item type: Ítem , Una comparación para el reconocimiento de patrones del habla usando Modelos de Markov Oculto y Redes Neuronales en el idioma Español(Universidad Nacional de Colombia, 2024) Camargo Abril, Gustavo Arnulfo; Calderón Villanueva, Sergio AlejandroCon el progreso de la tecnología, especialmente en el campo de la computación, es cada vez más imperativo que la interacción entre humanos y máquinas sea dinámica y eficiente. Esta evolución conlleva la necesidad de desarrollar sistemas que faciliten tal interacción a través del lenguaje natural humano, es decir, el habla. En la creación de estos sistemas, se destacan principalmente dos enfoques: la teoría del Modelo de Markov Oculto y las Redes Neuronales, siendo estos últimos los más investigados y los que han logrado mejoras de desempeño en años recientes. Hay varios tipos de modelos de redes usadas en este campo: las RNN (Recurrent Neural Network), CNN (Convolutional Neural Network) y TDNN (Time Delay Neural Network). Este documento propone una comparación entre los Modelos de Markov Ocultos (HMM, por sus siglas en inglés, Hidden Markov Model) y las Redes Neuronales, específicamente entre las Redes Neuronales TDNN. Esta comparación se llevará a cabo utilizando diferentes tipos de características extraídas de los datos (grabaciones), lo que permite mejorar el desempeño en el caso del modelo HMM (Coeficientes cepstrales, Delta, Delta-Delta, LDA, MLLT) y para el modelo basado en redes neuronales se explorará otro tipo de características propias de la metodología de redes, (i-vectors), donde se explicarán en cada etapa donde sean usadas. Para la evaluación de los modelos se tendrá en cuenta las dos métricas usuales: la tasa de error por palabra (WER) y la tasa de error por carácter (CER), medidas comunes en todos los trabajos dentro del campo del reconocimiento de voz (Texto tomado de la fuente).Item type: Ítem , Caracterización del perfil de transcripción génico en pacientes de cáncer de mama triple negativo en Colombia(Universidad Nacional de Colombia, 2024) Castaño Bernal, Andrés Felipe; López Kleine, LilianaEl cáncer de mama es una enfermedad muy heterogénea donde se han desarrollado varios subtipos de diagnóstico y tratamiento particular, razón por la cual, no existe ningún método estadístico que sea infalible a la hora de caracterizar el perfil transcriptómico de pacientes que sufren esta enfermedad. Dentro de los subtipos que se conocen, se encuentra el cáncer de mama triple negativo que afecta principalmente a mujeres con ancestría afro descendiente o latina y se caracteriza por no mostrar señales en los tres receptores que permiten el diagnóstico de la enfermedad. La complejidad de este subtipo de cáncer, sumada al hecho de que Colombia es diversa y se encuentran muchas mujeres con predisposición genética, donde en el país se generan cada día más conjuntos genómicos que tienen multidimensionalidad y estos son estudiados principalmente por personas sin formación estadística, de áreas como la biología, la clínica y la medicina, entre otras, fueron los factores que motivaron el presente estudio en el cual se abordará una metodología estadística sencilla e intuitiva, que pueda relacionar la información clínica a un conjunto de genes. El principal objetivo fue determinar los genes más informativos para la caracterización de las pacientes en una pequeña muestra de pacientes colombianas con multidimensionalidad. Una vez seleccionados, se evaluó su relación con variables clínicas y su capacidad para clasificar las muestras de manera adecuada con base en el diagnóstico clínico. Para ello se usaron métodos como el RGCCA, DESeq2, Random Forest y las aplicaciones limma en R, basadas en modelos lineales y estimaciones bayesianas. Finalmente, se buscó más información para identificar su relación con la enfermedad en el aplicativo DAVID (Texto tomado de la fuente).Item type: Ítem , Exploración de características geológicas de la superficie lunar de Encélado (Saturno) utilizando técnicas de aprendizaje automático para la clasificación de imágenes satelitales(Universidad Nacional de Colombia, 2024) Forero Larrotta, Juliana Paola; Montenegro Diaz, Alvaro MauricioEl análisis de imágenes satelitales brinda mucha información valiosa que puede ser aplicada en diferentes contextos. En el caso de los cuerpos planetarios, el análisis de imágenes tomadas por sondas espaciales es útil para determinar el origen, evolución, distribución y comportamiento geológico de un cuerpo del sistema solar (planetas, lunas, meteoritos). Gracias a estos datos podemos determinar la edad geológica relativa de un cuerpo con base en impactos de meteoritos observados que como consecuencia dejan cráteres y deforman superficies planetarias y lunares, incluso podemos determinar distintas propiedades fisicoquímicas que nos pueden dar indicio de la existencia de fuentes de agua, composiciones atmosféricas, abundancia de elementos y minerales de interés y así comprender mejor la mecánica interna y externa del cuerpo. Este tipo de aplicación requiere la identificación manual de particularidades y características morfológicas y composicionales en cientos de imágenes tomadas por diferentes instrumentos en diferentes longitudes de onda, con diferentes características de resolución, ángulo de captura de la imagen, tiempo de exposición, longitud de onda captada, posición del cuerpo planetario respecto a su estrella más cercana, ente otros factores. El presente trabajo es una aplicación de modelos de aprendizaje automático de tipo no supervisado como el clustering para el procesamiento de imágenes de la luna de Encelado del planeta Saturno tomadas por la sonda Cassini-Huygens entre los años 2005 y 2017 y que se pueden encontrar en el siguiente repositorio del proyecto PILOT de la NASA (Planetary Image Locator Tool) (USGS/NASA, 2015, https://pilot.wr.usgs.gov), el cual es el archivo más completo de imágenes tomadas por sondas enviadas al espacio hasta la fecha. La clasificación de las imágenes tomadas por la sonda Cassini-Huygens permite ampliar la comprensión de los diferentes procesos que dieron lugar a una gran variedad de características morfológicas y tectónicas de su superficie, ya que basta con observar y clasificar distintos tipos de geoformas como lo son cráteres de impacto, fracturas, fallas, surcos, elevaciones, montañas, distribución y tamaño de partículas, para entender la dinámica geológica de la luna y su dinámica criovolcánica. Se plantea un marco de trabajo para la aplicación de modelos de aprendizaje automático no supervisado como el k-means, MeanShift, DBSCAN y Mixtura Gaussiana para abordar el problema de segmentación de la imagen y detección de particularidades en la clasificación de morfologías, ya que este tipo de algoritmos permite dividir un conjunto de imágenes en grupos basados en sus características o propiedades identificadas, adicionalmente se entrena un modelo de red neuronal convolucional que toma las imágenes etiquetadas con k-means y busca predecir la clase sobre nuevas imágenes. Se prueban distintas combinaciones de técnicas de preprocesamiento y extracción de características y se aplica la técnica de transferencia de aprendizaje en modelos de redes neuronales preentrenadas tanto para poder extraer las características de una imagen, como para poder entrenar un clasificador que permita agrupar nuevas imágenes lunares en las categorías identificadas. Para Encélado, la sonda Cassini Huygens cuenta con dos tipos de instrumentos para la toma de datos: ISS (Cassini Imaging Science Subsystem) y VIMS (Visual and Infrared Mapping Spectrometer), los cuales producen imágenes de alta resolución. Se usaron 5167 imágenes mapeadas mediante un lente NA (Narrow Angle), es decir, un ángulo de imagen normal y no más amplio, del instrumento ISS que cuenta con imágenes tanto en el canal visible como en el infrarrojo cercano, estas imágenes fueron tomadas a distintas distancias y capturan distintas regiones de la luna (Texto tomado de la fuente).Item type: Ítem , Una metodología de identificación para el modelo factorial dinámico de umbrales(Universidad Nacional de Colombia, 2024-07-22) Cardenas Cardenas, Julian Alonso; Calderon Villanueva, Sergio AlejandroEl objetivo general de este documento es explorar una metodología para la etapa de identificación del número de regímenes y el número de factores en un modelo factorial dinámico de umbrales. Para lograr este objetivo se hizo uso de las correlaciones canónicas muestrales del proceso de series de tiempo multivariado, junto con las ideas derivadas de una prueba de no linealidad. De esta manera se muestran indicios para identificar tanto el número de factores, como el número de umbrales. Finalmente, la metodología propuesta se aplica sobre conjuntos de datos simulados y reales (Texto tomado de la fuente).