Nachabot - Modelo de inteligencia artificial como asistente al proceso de admisión de la Universidad Nacional de Colombia

Cargando...
Miniatura

Document language:

Español

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

Este trabajo de grado presenta el desarrollo de Nachabot, un asistente conversacional inteligente diseñado para responder preguntas frecuentes sobre el proceso de admisión a programas de pregrado y posgrado en la Universidad Nacional de Colombia. El objetivo principal fue construir un sistema basado en la arquitectura de Generación Aumentada por Recuperación (RAG), utilizando fuentes oficiales como documentos institucionales y páginas web, integrando herramientas como LangChain, LangGraph, Ollama y Streamlit. El diseño incluyó el Web scraping y procesamiento de datos desde el portal de admisiones, la segmentación y vectorización del corpus, y la implementación de múltiples flujos conversacionales sobre grafos de estado. Se compararon tres configuraciones del sistema: GPT-4o con embeddings de OpenAI, LLaMA3.2 con embeddings de OpenAI, y LLaMA3.2 con embeddings propios. La validación se realizó con LangSmith, evaluando métricas como exactitud, fidelidad al contexto, relevancia y latencia. Los resultados muestran que GPT-4o obtuvo los mejores puntajes en groundedness (0.88) y correctness (0.71), mientras que LLaMA3.2 con embeddings propios fue la solución más rápida (latencia P50: 2.1 s), aunque con menor calidad en las respuestas. La aplicación fue desplegada exitosamente en la nube mediante Streamlit, permitiendo el acceso público al sistema. Nachabot constituye una solución adaptable y reproducible para instituciones educativas que deseen automatizar la atención a aspirantes. (Texto tomado de la fuente).

Abstract

This thesis presents the development of Nachabot, an intelligent conversational assistant designed to answer frequently asked questions regarding undergraduate and graduate admissions at the National University of Colombia. The project aimed to build a system based on the Retrieval-Augmented Generation (RAG) architecture, combining official institutional sources—such as web content and PDF documents—with technologies like LangChain, LangGraph, Ollama, and Streamlit. The system was designed modularly to integrate web scraping, document segmentation, semantic vectorization, and conversational flows modeled as graphs. Three configurations of the system were implemented and evaluated: GPT-4o with OpenAIEmbeddings, LLaMA3.2 with OpenAIEmbeddings, and LLaMA3.2 with local OllamaEmbeddings. The evaluation used LangSmith's LLM-as-judge framework, analyzing correctness, groundedness, relevance, and latency. Results showed that the GPT-4o configuration achieved the best scores in groundedness (0.88) and correctness (0.71), while LLaMA3.2 with local embeddings yielded the lowest latency (P50: 2.1 s) but also the lowest response quality. The final system was successfully deployed using Streamlit Cloud, allowing public interaction with the assistant. Nachabot demonstrates the viability of building robust, low-cost, and extensible conversational agents for educational institutions aiming to automate and improve applicant support services.

Descripción

ilustraciones, diagramas

Palabras clave

Citación