En 19 día(s), 6 hora(s) y 31 minuto(s): El Repositorio Institucional UNAL informa a la comunidad universitaria que, con motivo del periodo de vacaciones colectivas, el servicio de publicación estará suspendido: Periodo de cierre: Del 20 de diciembre al 18 de enero de 2026. Sobre los depósitos: Durante este tiempo, los usuarios podrán continuar realizando el depósito respectivo de sus trabajos en la plataforma. Reanudación: Una vez reiniciadas las actividades administrativas, los documentos serán revisados y publicados en orden de llegada.

Maestría en Ingeniería - Sistemas y Computación

URI permanente para esta colecciónhttps://repositorio.unal.edu.co/handle/unal/81877

Examinar

Envíos recientes

Mostrando 1 - 20 de 338
  • Item type: Ítem ,
    Optimización de la auditoría continua en empresas de servicios públicos mediante un marco metodológico basado en aprendizaje supervisado : caso de estudio del proceso de facturación
    (Universidad Nacional de Colombia, 2025) Coronado Cabarcas, Yarelmis; Perdomo Charry, Oscar Julián; Mindlab
    Este trabajo presenta un marco metodológico optimizado para auditoría continua en empresas de servicios públicos, con énfasis en el proceso de facturación, mediante el uso de aprendizaje supervisado. El proyecto surgió ante la necesidad de mejorar la detección de anomalías y riesgos operativos que, bajo enfoques tradicionales, son detectados de forma tardía, afectando la eficiencia y la confiabilidad del proceso auditor. Para ello, se diseñó e implementó un marco estructurado en siete fases, desde el diagnóstico inicial de madurez hasta la retroalimentación del modelo, aplicando metodologías CRISP-DM, COSO-ERM y principios de automatización analítica. Tras una revisión comparativa de modelos de machine learning, se seleccionó Random Forest por su robustez ante datos desbalanceados y su capacidad para capturar patrones no lineales. El modelo fue entrenado y validado con datos ofuscados de facturación, alcanzando un F1-score de 0.61 en la detección de anomalías. Posteriormente, se aplicó a un nuevo conjunto de datos simulados, identificando más de 29 mil alertas de comportamiento atípico, lo que evidenció su potencial como herramienta de apoyo para auditorías automatizadas. Los resultados validan la aplicabilidad del marco propuesto y destacan la importancia de integrar enfoques de inteligencia artificial en los sistemas de control interno del sector público (Texto tomado de la fuente).
  • Item type: Ítem ,
    Prototipo de plataforma educativa basada en modelos de lenguaje para el apoyo en el aprendizaje de matemáticas básicas
    (Universidad Nacional de Colombia, 2025) Pabón Correa, David Alejandro; Restrepo Calle, Felipe; Pabon Correa, David Alejandro [0009000824194336]; Plas Programming languages And Systems
    El presente trabajo desarrolla un prototipo de plataforma educativa de código abierto orientada a la enseñanza de matemáticas básicas, integrando modelos de lenguaje para ofrecer tutoría personalizada. La propuesta surge como respuesta a la brecha de aprendizaje matemático en Colombia y a la necesidad de contar con herramientas capaces de operar en entornos con recursos limitados. Se plantea la adaptación de modelos de lenguaje pequeños (Small Language Models) al dominio de las matemáticas elementales, con el propósito de generar explicaciones paso a paso y fomentar el aprendizaje activo. El documento describe las fases de diseño pedagógico, la construcción de un conjunto de datos en español, el ajuste fino de los modelos y la implementación de un prototipo con interfaz de usuario. Los resultados obtenidos muestran la factibilidad técnica y pedagógica de esta aproximación en escenarios de baja conectividad, y se plantea su potencial escalabilidad como alternativa inclusiva para fortalecer la enseñanza de las matemáticas en el sistema educativo colombiano (Texto tomado de la fuente).
  • Item type: Ítem ,
    Telemedicina - Análisis de tecnologías en el sistema de salud para la atención de pacientes en una institución de prestación de servicios de salud
    (Universidad Nacional de Colombia, 2025) Mojica Perdigon, Gustavo Adolfo; Umaña Acosta, Henry Roberto
    La implementación de la telemedicina en Colombia enfrenta desafíos estructurales relacionados con la integración tecnológica, la interoperabilidad entre sistemas y la adopción institucional. Este trabajo explora el estado actual de dicha implementación en tres IPS privadas de Bogotá, combinando un enfoque mixto de investigación que integra análisis cualitativos (entrevistas a profesionales de la salud) y cuantitativos (encuestas a pacientes). A través de esta triangulación metodológica, se identifican barreras y oportunidades, y se contrastan los hallazgos con frameworks tecnológicos reconocidos como HL7 FHIR y OpenMRS. El análisis automatizado mediante inteligencia artificial refuerza los patrones emergentes, facilitando una categorización robusta de las percepciones y experiencias recogidas. Finalmente, se presentan lineamientos estratégicos para fortalecer la adopción de telemedicina desde una perspectiva técnica, organizacional y centrada en el usuario (Texto tomado de la fuente).
  • Item type: Ítem ,
    Análisis de la deserción estudiantil en los programas de pregrado de la Facultad de Ciencias Económicas de la Universidad Nacional de Colombia, Sede Bogotá, utilizando métodos de aprendizaje automático
    (Universidad Nacional de Colombia, 2025) Vargas Contreras, Rosmer Manuel; Franco Soto, Diana Carolina
    La deserción estudiantil universitaria es uno de los principales problemas que enfrentan las instituciones de educación superior, generando impactos negativos tanto a nivel individual como institucional y para el país. En esta investigación se construyeron modelos predictivos para la deserción estudiantil en los programas de pregrado de la Facultad de Ciencias Económicas de la Universidad Nacional de Colombia, Sede Bogotá, durante el período 2022-2023, utilizando algunas técnicas de aprendizaje automático. Se implementaron cuatro algoritmos de aprendizaje automático: regresión logística, Random Forest, XGBoost y redes neuronales. La optimización de hiperparámetros se realizó utilizando Optuna y Grid Search CV, evaluando múltiples técnicas de balanceo de datos para abordar el desbalance inherente en los datos de deserción. La evaluación se basó en validación cruzada estratificada 5-fold y un conjunto de prueba independiente del 20%. El análisis descriptivo reveló que la tasa de deserción se incrementó de 0.44% en 2022-1S a 10.30% en 2023-2S, con diferencias notables por género (6.10% en hombres versus 3.76% en mujeres) y edad (17.44% en estudiantes de 30 a 34 años). La regresión logística identificó como factores de mayor impacto predictivo al Promedio Académico Ponderado Acumulado con β = −4.700 (p < 0.001), siendo el predictor más fuerte, junto con el número de matrículas (β = −0.426, p < 0.001), que reduce las probabilidades de abandono en 34.7%. Los estudiantes de la carrera de Administración de Empresas presentan menor riesgo (β = −0.957, p < 0.001), mientras que aquellos que deben nivelar Matemáticas muestran mayor probabilidad de desertar (β = 0.582, p = 0.006). Los efectos post confinamiento por la pandemia COVID-19 fueron significativos en 2020-2S aumentando la deserción (β = 0.646, p = 0.020), pero protectores en 2021-2S (β = −0.700, p = 0.004). Finalmente, Random Forest alcanzó el mejor rendimiento con una exactitud de 96.99% y un área bajo la curva ROC de 0.9914 en el conjunto de prueba. El modelo desarrollado proporciona una herramienta que puede ser útil para la identificación temprana de estudiantes en riesgo, con aplicaciones inmediatas en sistemas de alerta temprana institucionales. Los hallazgos contribuyen al entendimiento de los factores asociados con la deserción y proporcionan evidencia empírica para el diseño de estrategias diferenciadas de retención estudiantil (Texto tomado de la fuente).
  • Item type: Ítem ,
    Prototipo de una herramienta de software para el acompañamiento de pausas activas en entornos de trabajo remoto
    (Universidad Nacional de Colombia, 2025) Garzon Vasquez, Nicolas Andres; Duarte, Helga; Colectivo de Investigación en Ingeniería de Software Colswe
    Este proyecto tiene como objetivo desarrollar un prototipo de software para orientar y acompañar a las personas en modalidad de trabajo remoto, en la realización de pausas activas durante la jornada laboral. La idea surge ante el aumento significativo de personas que trabajan de manera remota, que pueden llegar a desarrollar enfermedades relacionadas, como el sedentarismo, las dolencias musculares y la fatiga visual que enfrentan. Las personas que trabajan remoto, aunque tengan a su disposición espacios proporcionados por el empleador para realizar estas actividades, no cuentan con una herramienta que les ayude a desarrollar las pausas activas de forma guiada y práctica, a diferencia de los entornos de presencialidad, donde sí se recibe el acompañamiento. Además de guiar al usuario en la ejecución de las pausas activas, el prototipo incorpora la opción de registrar cada sesión realizada. De esta manera, se generan métricas que pueden ser consultadas por el empleador, ofreciendo un valor agregado en términos de seguimiento y control, promoviendo el autocuidado. Esta funcionalidad constituye una de las principales ventajas del prototipo frente a otras soluciones disponibles en el mercado, ya que permite a las empresas hacer seguimiento al compromiso de sus colaboradores con la práctica de pausas activas (Texto tomado de la fuente).
  • Item type: Ítem ,
    Modelo de predicción de abandono de clientes en un marketplace mediante técnicas de machine learning
    (Universidad Nacional de Colombia, 2025-10-06) Baquero Pico, Cristian Adolfo; Restrepo Calle, Felipe; León Guzmán, Elizabeth; Plas Programming languages And Systems
    En el contexto competitivo de los marketplaces, la retención de clientes se ha convertido en un factor estratégico clave. Este trabajo presenta el desarrollo de un modelo predictivo de abandono de clientes (churn) aplicando técnicas de aprendizaje automático (machine learning), con el objetivo de identificar proactivamente a aquellos usuarios con mayor probabilidad de abandonar la plataforma. El estudio se estructura bajo la metodología CRISP-DM, abordando desde la selección y análisis de una base de datos —“theLook eCommerce”— hasta la preparación de características y la comparación de múltiples algoritmos. Se evaluaron diferentes configuraciones temporales para representar el con texto del cliente, y se identificaron las más efectivas en términos de desempeño predictivo. El modelo desarrollado, basado en Random Forest, alcanzó métricas superiores al 82 % en Accuracy y 78 % en F1-score, demostrando su utilidad para apoyar estrategias de retención en entornos reales. Este trabajo reafirma la necesidad de enfoques personalizados en la predicción del churn y sienta las bases para su implementación práctica. (Texto tomado de la fuente).
  • Item type: Ítem ,
    Modelo de Machine Learning para determinar si existe un exceso de muertes por enfermedades cardiovasculares, de personas mayores de 60 años, relacionadas con la exposición de corto plazo al material particulado PM2.5
    (Universidad Nacional de Colombia, 2025-09-10) Roncancio Turriago, Jorge Luis; Niño Vasquez, Luis Fernando; Gutierrez Torres, Juan David; laboratorio de Investigación en Sistemas Inteligentes Lisi
    La baja calidad del aire en Colombia se está convirtiendo en un riesgo para la población mayor, debido al deterioro de su sistema inmunitario a causa del envejecimiento, esto ocasiona que desarrollen con mayor facilidad enfermedades cardiovasculares. Por esto se plantea crear un modelo de Machine Learning que permita determinar si existe un exceso en muertes por enfermedades cardiovasculares, de personas mayores de 60 años, relacionadas con la exposición de corto plazo al material particulado PM2.5. Para lograr este objetivo, se realizó una recolección de datos ambientales y epidemiológicos, se aplicaron técnicas de preprocesamiento de datos, se entrenaron distintos modelos con diferentes técnicas de Machine Learning y se evaluó el desempeño de estos modelos, comparando diferentes métricas de evaluación, con el objetivo de seleccionar el modelo con mejores resultados; todo esto haciendo uso de la metodología CRISP-DM. Con el modelo final seleccionado, se ejecutó un análisis de interpretabilidad donde se evidencio que existe una relación entre las variables de estudio “pm25”, “prevalencia en muertes por hipertensión” y “exceso de muertes”; esta relación no necesariamente induce a afirmar que exista un exceso en muertes por enfermedades cardiovasculares, relacionadas con la exposición de corto plazo al material particulado PM2.5, pero sí muestra que el modelo es capaz de generar buenas predicciones para responder a dicha incógnita. El modelo final cuenta con un “Recall” para la etiqueta 0 (No hay exceso de muertes) de 70.72% y para la etiqueta 1 (Si hay exceso de muertes) de 71.38% lo cual es equivalente a que el modelo es capaz de acertar 18 de cada 25 veces que se le pregunte. (Texto tomado de la fuente).
  • Item type: Ítem ,
    Diagnóstico de severidad de edema pulmonar asistido por multimodal learning
    (Universidad Nacional de Colombia, 2025-11-12) Neiza Mejia, Juan Sebastian; González Osorio, Fabio Augusto; Toledo Cortés, Santiago; Neiza, Juan Sebastian [1032436240]; Neiza Mejia, Juan Sebastian [0009000851299731]; Perdomo Charry, Oscar Julian; Gomez Jaramillo, Francisco Albeiro; Mindlab
    El diagnóstico del edema pulmonar a partir del análisis automático de radiografías de tórax y reportes clínicos representa un desafío relevante en el desarrollo de sistemas de apoyo a la decisión médica. Este problema se ve agravado por dos factores principales: la escasez de anotaciones clínicas de alta calidad y la dificultad de integrar modalidades heterogéneas como imágenes e informes textuales. Para abordar esta tarea, en esta tesis se estudiaron y compararon distintos enfoques unimodales (imagen y texto por separado) y multimodales (fusión de ambas modalidades), incorporando tanto modelos convencionales como modelos fundacionales. El flujo de trabajo experimental incluye tres componentes principales: (i) el uso de extractores visuales como DenseNet 121 y DINOv2; (ii) la representación textual mediante modelos como BERT Medical y MedCPT, aplicados tanto a reportes redactados por especialistas como a reportes sintéticos generados automáticamente con ContactDoctor; y (iii) la comparación de diferentes mecanismos de fusi´on multimodal: un perceptrón multicapa (MLP), la unidad multimodal con compuertas (Gated Multimodal Unit, GMU) y el marco de Kernel Density Matrices (KDM). La metodología se evaluó en una tarea de clasificación ordinal con cuatro niveles de severidad del edema pulmonar, utilizando el conjunto de datos MIMIC-CXR. Los resultados muestran que: (i) los modelos basados en imágenes superan a los textuales cuando se consideran de manera aislada, alcanzando un máximo de 0.45 con DINOv2; (ii) los reportes generados automáticamente aportan uniformidad y pueden mejorar el desempeño frente a los reportes humanos en ciertos escenarios multimodales; y (iii) la fusión con KDM alcanza el mejor resultado global, logrando un macro F1-score de 0.48, lo que confirma la utilidad de la integración multimodal frente a cualquier modalidad aislada. Los resultados demuestran que el aprovechamiento de modelos fundacionales y de mecanismos de fusión probabilística como KDM mejora el rendimiento en la predicción de la severidad del edema pulmonar. Estos hallazgos sugieren que la combinación de información visual y textual puede potenciar la capacidad diagnóstica en entornos clínicos con datos limitados. (Texto tomado de la fuente).
  • Item type: Ítem ,
    Sistema de machine learning para detectar transacciones sospechosas de lavado de activos. Caso de estudio "IBM transactions for anti money laundering (AML)"
    (Universidad Nacional de Colombia, 2025) Delgado Mejia, Santiago Leonardo; Niño Vásquez, Luis Fernando; Santiago L. Delgado [0009000684216918]; laboratorio de Investigación en Sistemas Inteligentes Lisi
    El lavado de activos es el proceso mediante el cual organizaciones criminales otorgan apariencia legítima a recursos provenientes de actividades ilícitas como el narcotráfico, la trata de personas y la extorsión. Esta práctica es crítica para financiar nuevas actividades ilegales y representa una amenaza significativa para la estabilidad económica y la confianza en los sistemas financieros. Por ello, las instituciones están obligadas a implementar sistemas de prevención y detección de lavado de activos (AML), basados principalmente en procesos de Know Your Customer (KYC) y Know Your Transaction (KYT). Tradicionalmente, los sistemas AML se han sustentado en reglas predefinidas. Aunque constituyen el estándar, presentan limitaciones importantes: son rígidos ante nuevas modalidades de lavado y generan altos índices de falsos positivos, lo que incrementa los costos operativos. Adicionalmente, la falta de datos representativos dificulta la aplicación de técnicas más sofisticadas. El presente trabajo tuvo como objetivo desarrollar un modelo de aprendizaje automático para la detección de transacciones sospechosas, empleando como caso de estudio el conjunto de datos sintéticos IBM Transactions for Anti-Money Laundering (AML). Se identificaron patrones frecuentes de lavado (FAN, CYCLE y RANDOM), se seleccionaron técnicas de extracción de características, y se implementaron dos modelos de clasificación, uno de los cuales superó al sistema basado en reglas en la métrica de Recall. Los resultados evidencian que el aprendizaje automático puede complementar a los sistemas tradicionales mejorando la eficiencia. Se recomienda ampliar las pruebas con mayores volúmenes de datos y explorar técnicas como el aprendizaje por refuerzo y escenarios en blockchain para robustecer la detección de actividades ilícitas (Texto tomado de la fuente).
  • Item type: Ítem ,
    Análisis automatizado de comparación de productos con técnicas de procesamiento de lenguaje natural para artículos deportivos extraídos de canales de comercio electrónico
    (Universidad Nacional de Colombia, 2025) Correa Lombana, Juan Manuel; Restrepo Calle, Felipe; Plas Programming languages And Systems
    En el dinámico entorno del comercio electrónico, el análisis competitivo de productos es un pilar estratégico, aunque su ejecución manual es ineficiente y propensa a errores debido a la heterogeneidad de la información. Este trabajo aborda la automatización de la comparación de artículos deportivos, específicamente calzado de running, extrayendo datos de múltiples plataformas de e-commerce. La contribución principal es un pipeline que implementa un paradigma de "extracción primero, comparación después". Se utiliza un Modelo de Lenguaje Grande (LLM) para transformar descripciones de producto no estructuradas en un conjunto normalizado de atributos técnicos clave, definidos mediante un consenso de expertos con el método Delphi. Posteriormente, sobre estas representaciones estructuradas, se aplican técnicas de embeddings y el algoritmo K-Vecinos más Cercanos (KNN) para cuantificar la similitud funcional e identificar productos equivalentes. Los resultados demuestran una reducción del tiempo de análisis superior al 99.9% en comparación con el proceso manual y una alta validación cualitativa por parte de expertos (4.35 sobre 5.0), validando la herramienta como un recurso eficaz para la inteligencia de negocio, la optimización de precios y la toma de decisiones estratégicas en el sector retail (Texto tomado de la fuente).
  • Item type: Ítem ,
    Método de seguridad para APIs REST, bajo enfoque API First, para el aseguramiento de la integridad y la validez de datos sensibles
    (Universidad Nacional de Colombia, 2025) Grisales González, Andrés; Vergara Vargas, Jeisson Andrés; Grisales González, Andres [0009000645661752]; Colectivo de Investigación en Ingeniería de Software Colswe
    Este trabajo final se enfoca en el desarrollo de un método de seguridad para APIs REST bajo en- foque API First, con el propósito de asegurar la integridad y validez de datos sensibles mediante cifrado y firma digital de atributos específicos. Se investigaron en profundidad las vulnerabil- idades actuales en sistemas que exponen APIs REST, identificando brechas significativas en la protección de atributos sensibles que van más allá de los mecanismos tradicionales de autenti- cación y autorización. Como resultado, se desarrolló una librería para Java con Spring Boot que implementa protección granular a nivel de atributo utilizando JSON Web Tokens (JWT) para firma digital y encriptación AES-256-GCM para confidencialidad. La solución ofrece dos modal- idades de implementación: mediante extensiones de metadatos en especificaciones OpenAPI (x-security-metadata) y a través del uso directo de anotaciones declarativas sobre atributos sen- sibles en DTOs, parámetros de ruta y parámetros de consulta. Se validó la efectividad del método mediante evaluaciones exhaustivas que demostraron 100% de precisión en detección de manip- ulaciones y un impacto de rendimiento inferior al 15% de overhead. En conjunto, el trabajo presenta una solución práctica y flexible para la protección automática de datos sensibles en APIs REST, abriendo la puerta a futuras implementaciones en otros frameworks y lenguajes de programación, así como la extensión a protocolos adicionales de comunicación entre sistemas (Texto tomado de la fuente).
  • Item type: Ítem ,
    Pronóstico de la precipitación acumulada en Colombia, utilizando técnicas de aprendizaje automático
    (Universidad Nacional de Colombia, 2025) Mogollón Oviedo, Juan Diego; Camargo Mendoza, Jorge Eliecer; González Osorio, Fabio Augusto
    Este trabajo aborda el desafío del pronóstico de precipitación en Colombia, un aspecto fundamental para sectores estratégicos como la agricultura, la gestión de recursos hídricos, la energía y la mitigación de riesgos naturales. En un país caracterizado por su alta variabilidad climática y diversidad geográfica, la predicción exacta de la precipitación representa no solo un reto académico, sino una necesidad estratégica. En este contexto, se llevó a cabo un procesamiento automatizado de datos abiertos de precipitación acumulada, obtenidos a partir de las estaciones meteorológicas del Instituto de Hidrología, Meteorología y Estudios Ambientales (IDEAM), distribuidas a lo largo del territorio colombiano. El análisis incluyó la aplicación de técnicas de descomposición de señales, como Complete Ensemble Empirical Mode Decomposition with Adaptive Noise (CEEMDAN) y Variational Mode Decomposition (VMD). Se evaluó el desempeño de diversos algoritmos de aprendizaje automático, incluyendo modelos basados en árboles de decisión (XGBoost), redes neuronales recurrentes (LSTM, BiLSTM), arquitecturas Transformer (Lag-Llama) y métodos híbridos con descomposición de señales y máquinas de soporte vectorial (CEEMDAN-VMD-BiLSTM, SVM-BiLSTM). La evaluación se realizó mediante métricas utilizadas en predicción climática como Root Mean Square Error (RMSE), Mean Absolute Error (MAE), Nash-Sutcliffe Efficiency (NSE) y Forecast Anomaly Correlation (AC). Los resultados demostraron que el modelo XGBoost presentó un rendimiento superior, con el menor error cuadrático medio y el coeficiente de Nash-Sutcliffe más alto. Los modelos basados en redes neuronales recurrentes mostraron un desempeño ligeramente inferior pero consistente, mientras que las arquitecturas más complejas como Lag-Llama y CEEMDAN-VMD-BiLSTM exhibieron limitaciones significativas. Finalmente, se diseñó una arquitectura de implementación incorporando prácticas de operaciones de aprendizaje automático (MLOps), definiendo componentes técnicos, principios y herramientas útiles para implementar los modelos en entornos productivos. Este trabajo contribuye al desarrollo científico y tecnológico en la predicción hidrometeorológica en Colombia, ofreciendo alternativas innovadoras frente a los modelos numéricos tradicionales y evaluando su viabilidad en el contexto local. (Texto tomado de la fuente).
  • Item type: Ítem ,
    Nachabot - Modelo de inteligencia artificial como asistente al proceso de admisión de la Universidad Nacional de Colombia
    (Universidad Nacional de Colombia, 2025-07-17) Tafur Devia, Cristian David; Niño Vásquez, Luis Fernando; laboratorio de Investigación en Sistemas Inteligentes Lisi
    Este trabajo de grado presenta el desarrollo de Nachabot, un asistente conversacional inteligente diseñado para responder preguntas frecuentes sobre el proceso de admisión a programas de pregrado y posgrado en la Universidad Nacional de Colombia. El objetivo principal fue construir un sistema basado en la arquitectura de Generación Aumentada por Recuperación (RAG), utilizando fuentes oficiales como documentos institucionales y páginas web, integrando herramientas como LangChain, LangGraph, Ollama y Streamlit. El diseño incluyó el Web scraping y procesamiento de datos desde el portal de admisiones, la segmentación y vectorización del corpus, y la implementación de múltiples flujos conversacionales sobre grafos de estado. Se compararon tres configuraciones del sistema: GPT-4o con embeddings de OpenAI, LLaMA3.2 con embeddings de OpenAI, y LLaMA3.2 con embeddings propios. La validación se realizó con LangSmith, evaluando métricas como exactitud, fidelidad al contexto, relevancia y latencia. Los resultados muestran que GPT-4o obtuvo los mejores puntajes en groundedness (0.88) y correctness (0.71), mientras que LLaMA3.2 con embeddings propios fue la solución más rápida (latencia P50: 2.1 s), aunque con menor calidad en las respuestas. La aplicación fue desplegada exitosamente en la nube mediante Streamlit, permitiendo el acceso público al sistema. Nachabot constituye una solución adaptable y reproducible para instituciones educativas que deseen automatizar la atención a aspirantes. (Texto tomado de la fuente).
  • Item type: Ítem ,
    Desarrollo de un modelo basado en redes neuronales para la clasificación automática de textos periodísticos: caso de estudio 20 news group
    (Universidad Nacional de Colombia, 2025-07-09) Puertas Bustos, Leonardo; Niño Vásquez, Luis Fernando; laboratorio de Investigación en Sistemas Inteligentes Lisi
    En la era digital, la clasificación automática de textos se ha convertido en una herramienta fundamental para gestionar eficientemente la gran cantidad de información generada a diario, especialmente en el ámbito periodístico. Este trabajo presenta el desarrollo y la evaluación de un modelo basado en redes neuronales para clasificar automáticamente artículos del conjunto de datos 20 Newsgroups, que incluye textos periodísticos en inglés categorizados en 20 temáticas distintas. Se implementaron tanto modelos tradicionales (como Regresión Logística, Random Forest, SVM, XGBoost y KNN) como modelos de redes neuronales (MLP, CNN, LSTM, GRU, BERT y XLNet). El preprocesamiento incluyó limpieza, tokenización y representación de texto con TF-IDF. Los resultados muestran que los modelos BERT, MLP y SVM alcanzaron las mayores precisiones (cercanas al 91%), mientras que modelos como GRU y KNN tuvieron desempeños significativamente inferiores. Estos hallazgos evidencian la eficacia de las redes neuronales, especialmente aquellas basadas en transformers, para tareas complejas de clasificación textual. (Texto tomado de la fuente)
  • Item type: Ítem ,
    Self-supervised learning for histopathological image analysis using limited annotated data
    (Universidad Nacional de Colombia, 2025) Betancourth Castro, Landneyker; González Osorio, Fabio Augusto; Cruz Roa, Angel Alfonso; Betancourth Castro, Landneyker [0001826131]; Mindlab
    The analysis of digital histopathology slides plays a crucial role in cancer research and diagnosis, including prostate cancer. However, acquiring sufficient annotated data to train deep learning models in this domain is challenging due to the scarcity of pathologists, the expertise required for precise annotations, and the time-consuming nature of the process. This study proposes a self-supervised learning approach based on SimCLR (Simple Contrastive Learning of Representations) for histopathological image analysis, enabling the learning of visual representations from unannotated data. These representations are then used to train a supervised classifier with a small amount of labeled data, facilitating accurate and generalizable prostate cancer grading. The dataset used in this study is the Prostate cANcer graDe Assessment (PANDA) dataset Bulten2022, which contains histopathological images of prostate tissue samples along with expert annotations for cancer grade assessment. We evaluated various scenarios and configurations by varying the amount of annotated data and using self-supervised representation learning on unannotated datasets from either a general domain (natural images) or a specific domain (histopathology). In our proposed SimCLR-based approach, we demonstrate the effectiveness of self-supervised techniques in learning meaningful representations from unannotated data. The method leverages inherent structures and patterns in histopathological images to learn rich representations, which can later be fine-tuned on a small annotated dataset for specific downstream tasks. The proposed SimCLR-based framework was evaluated on the task of prostate cancer grade assessment using a limited number of annotated samples. Experimental results show that the self-supervised model is capable of generalizing to unseen data and achieving competitive performance compared to supervised approaches trained on larger annotated datasets. Notably, better performance was observed when the model was pre-trained directly on domain-specific histopathological images, reaching scores of 0.96 for stroma, 0.76 for healthy tissue, and 0.73, 0.71, 0.42 for Gleason 3, 4, 5, respectively with only 15% of the annotated data. In contrast, when using a model pre-trained on natural images (STL-10), slightly lower scores were obtained: 0.9, 0.58, 0.56, 0.52, and 0.3, respectively. Despite this difference, the model trained on natural images still showed remarkable performance, especially considering it was trained with a reduced fraction of labeled data, highlighting its potential for use in resource-constrained scenarios. (Texto tomado de la fuente)
  • Item type: Ítem ,
    Cuantificación de la progresión de glándulas de control a lesiones precancerosas en el estómago a partir del análisis histopatológico de imágenes
    (Universidad Nacional de Colombia, 2025-07-15) Caviedes Rojas, Jerson Mauricio; Romero, Eduardo; Cruz-Roa, Ángel; https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001710930; Niño, Luis Fernando; Villareal, Jesús Alberto; Cim@Lab
    In Colombia, gastric cancer poses a significant challenge to the healthcare system, particularly in regions like Nariño, where the incidence reaches 150 cases per 100,000 inhabitants. This high rate is associated with a 90% prevalence of Helicobacter pylori infection, a key risk factor in the development of precancerous lesions such as intestinal metaplasia. Early detection of these lesions is crucial but faces obstacles due to a shortage of pathologists and the subjectivity involved in evaluating biopsies using systems like OLGA and OLGIM. To address this issue, the use of artificial intelligence tools, specifically convolutional neural networks, has been explored to analyze histopathological images. In a recent study, various neural network architectures were evaluated for classifying intestinal metaplasia in gastric biopsy images. The VGG16 architecture stood out with an accuracy of 76% and an AUC of 0.922, outperforming models like InceptionV3 and ResNet50. Additionally, it showed high concordance with expert annotations, evidenced by a Dice Score of 0.93 and a Jaccard Index of 0.87. These results suggest that implementing deep learning models like VGG16 can enhance the detection and quantification of gastric precancerous lesions, optimizing early diagnosis and potentially reducing the burden of gastric cancer in high-incidence regions such as Nariño.
  • Item type: Ítem ,
    Automatic classification of 21 subtypes of blood cells
    (Universidad Nacional de Colombia, 2024) Rodríguez Lozano, Jhonathan Javier; Romero Castro, Eduardo; Gómez Perdomo, Jonatan; Tarquino Gonzalez, Jonnathan Steve; Cim@Lab
    Cytomorphological assessment of bone marrow cells plays a crucial role in diagnosing various hematologic disorders, but the process remains largely manual, relying on trained specialists, which creates a bottleneck in clinical workflows. While deep learning algorithms present a promising solution for automation, most existing models focus on a limited subset of cell types associated with specific diseases and are often treated as black-box systems. This study introduces a novel engineered feature representation, called region-attention embedding, aimed at improving deep learning classification across 21 bone marrow cell subtypes. The embedding organizes cytological features into a structured square matrix based on pre-segmented regions of the cell—cytoplasm, nucleus, and entire cell—thus preserving spatial and regional relationships. When integrated with the Xception and ResNet50 models, this approach highlights region-specific relevance in images, enhancing interpretability. The method was evaluated on the largest publicly available bone marrow cell subtype dataset, using three iterations of 3-fold cross-validation on 80% of the dataset (n = 89,484) and testing on a separate 20% (n = 22,371). The results indicate that the proposed method exceeds the performance of existing models on comparable validation sets, achieving an F1-score of 0.82, and demonstrates strong performance on the unseen test set with an F1-score of 0.56.
  • Item type: Ítem ,
    Generación de recomendaciones automáticas de inversión en la Bolsa de Valores de Colombia mediante agentes autónomos de inteligencia artificial
    (Universidad Nacional de Colombia, 2025) Rodriguez Barreto, Julian Mauricio; Restrepo Calle, Felipe; Plas Programming languages And Systems
    El comportamiento de los precios de activos financieros, específicamente en el mercado colombiano, está influenciado por múltiples factores económicos y financieros, que influyen en los precios y generan incertidumbre en los inversionistas. Históricamente, Colombia ha mostrado una baja participación en el mercado de renta variable debido, en parte, a la complejidad del análisis requerido para la toma de decisiones. Este trabajo se motivó por la necesidad de facilitar este proceso mediante tecnologías avanzadas, con el fin de promover la inclusión financiera y mejorar la precisión en la toma de decisiones. En Colombia, se evidenció que, aunque existen desarrollos tecnológicos como aplicaciones móviles (TRII y Tyba) y estudios de implementación de Inteligencia Artificial (IA) en el mercado local, la aplicación específica de Agentes Autónomos de IA, aún es incipiente en el contexto financiero colombiano. Modelos como FinGPT y FinAgent han demostrado resultados prometedores en otros mercados, destacando la necesidad de adaptar estas tecnologías al contexto local con las características propias del mercado colombiano. El objetivo de este trabajo es desarrollar un Agente Autónomo de Inteligencia Artificial que proporcionará soporte automatizado para decisiones de inversión en la Bolsa de Valores de Colombia. Este objetivo se alcanzó mediante un proceso metodológico estructurado en cuatro fases: la recolección de datos mediante técnicas de web scraping, la creación de una herramienta computacional basada en técnicas de IA para extraer información relevante de fuentes confiables, la implementación del agente autónomo utilizando el modelo ReAct y grandes modelos de lenguaje (LLMs), y la evaluación de su desempeño comparado con estrategias tradicionales. Los resultados obtenidos mostraron que el agente autónomo, en diferentes contextos, logró superar a estrategias convencionales como Comprar y Mantener, Media Móvil y Reversión a la Media, evaluadas a través de métricas como la Tasa Promedio de Retorno Anual (ARR), volatilidad y el Sharpe Ratio. Además, pruebas estadísticas como Mann-Whitney U confirmaron las diferencias del agente en términos de rentabilidad ajustada al riesgo para acciones destacadas como Ecopetrol, Bancolombia, Nutresa y Cementos Argos. Este trabajo aporta una solución innovadora al mercado bursátil colombiano, demostrando que los Agentes Autónomos basados en IA pueden ser efectivos en contextos financieros locales. Los hallazgos sugieren un gran potencial para mejorar la inclusión financiera en Colombia y plantean futuras líneas de investigación en la adaptación y optimización de estos modelos en mercados emergentes. (Texto tomado de la fuente).
  • Item type: Ítem ,
    Evaluación automática de casos de prueba de ejercicios de programación de computadores
    (Universidad Nacional de Colombia, 2025-07-15) Rivera Cárdenas, David Leonardo; Restrepo Calle, Felipe; González Osorio, Fabio Augusto; Vergara Vargas, Jeisson Andrés; Plas Programming languages And Systems
    El reciente crecimiento de plataformas de evaluación automática de ejercicios de programación de computadores ha ayudado a los docentes en la retroalimentación de las soluciones propuestas por los estudiantes; esto es un factor importante en el desarrollo de habilidades de programación de computadores. Sin embargo, los docentes enfrentan desafíos a la hora de conocer si los casos de prueba que han creado tienen la suficiente cobertura, la cual hace referencia a la cantidad o porcentaje de código que es alcanzado por las pruebas. El objetivo general del presente trabajo es proponer y desarrollar un prototipo funcional de una herramienta que mida, de manera automática, la calidad de un conjunto de casos de prueba usados para evaluar la solución de ejercicios de programación de computadores. La herramienta mide el nivel de cobertura de estos casos mediante métricas como cobertura de rama y línea, proporcionando información de su calidad. La metodología empleada incluyó una revisión de la literatura sobre técnicas, métricas y herramientas de evaluación de pruebas, seguida del diseño, implementación y validación del prototipo utilizando un conjunto de datos de soluciones y casos de prueba de 18 ejercicios del curso Introducción a la Programación en Python de la Universidad Nacional de Colombia. Los resultados muestran que la herramienta permite identificar deficiencias en la cobertura de los casos de prueba y, a partir de ellos, se sugieren oportunidades de mejora para fortalecer el proceso de creación de casos de prueba para la evaluación de ejercicios de programación. Este trabajo contribuye a la mejora continua de la enseñanza de programación de computadores, al ofrecer una solución automática para la evaluación de pruebas, que proporcione una orientación a los docentes para la generación de casos de prueba más completos y efectivos, por medio de la identificación del nivel de cobertura alcanzado. (Texto tomado de la fuente).
  • Item type: Ítem ,
    Estrategia eficiente para la mejora de las capacidades de modelos grandes de lenguaje (LLMs)
    (Universidad Nacional de Colombia, 2025) Velandia Gutiérrez, Julián Camilo; Niño Vásquez, Luis Fernando; Velandia Gutiérrez, Julián Camilo [0002030716]; Velandia Gutiérrez, Julián Camilo [0009-0000-8617-7445]; laboratorio de Investigación en Sistemas Inteligentes Lisi
    Los grandes modelos de lenguaje (LLMs) se han consolidado como un hito en el ámbito de la inteligencia artificial y el procesamiento del lenguaje natural, pero su implementación a gran escala se ve limitada por la necesidad de recursos computacionales elevados. Este trabajo propone que a partir de un modelo base, se exploren y combinen técnicas de procesamiento y selección cuidadosa de datos, entrenamiento y ajustes en la arquitectura, con el fin de mejorar la eficiencia de los modelos en entornos con recursos restringidos y sobre una base de conocimiento delimitada. El enfoque metodológico incluyó la definición de criterios para la elaboración de conjuntos de datos confiables, la experimentación controlada con diferentes configuraciones y la evaluación sistemática de las variantes resultantes en términos de capacidad, versatilidad, tiempo de respuesta y seguridad. Finalmente, se llevaron a cabo pruebas comparativas, midiendo el desempeño de las variantes desarrolladas y validando la eficacia de las estrategias propuestas (Texto tomado de la fuente).