Reconocimiento 4.0 InternacionalRestrepo Calle, FelipeCañas Palomino, Luis Alfonso2024-02-062024-02-062023-12https://repositorio.unal.edu.co/handle/unal/85634ilustraciones, diagramasThematic analysis is fundamental in qualitative research, providing rich insights but often requiring substantial time and expertise. This work addresses some limitations of existing Computer-Assisted Qualitative Data Analysis Software (CAQDAS) and presents a novel method specifically designed to assist in the thematic analysis of multi-label open-ended questions in Spanish-language surveys. The proposed method melds domain expertise with advanced language models to establish preliminary categories. Subsequently, human discernment is combined with similarity measures to streamline the categorization of some responses using these preliminary categories. The process culminates in a robust and scalable automated categorization, utilizing diverse models, language models, and accuracy metrics. The proposed method is composed of three modular phases that can function independently or collaboratively, offering a comprehensive solution for researchers. It can reduce the labor-intensive coding process by leveraging Large Language Models (LLMs) and Natural Language Processing (NLP) techniques. The method's efficacy is evaluated through its application on a dataset from the National University of Colombia, demonstrating promising results across its various modules and pathways. The work opens avenues for further research, particularly in enhancing qualitative analysis methods with the integration of modern tools. (Texto tomado de la fuente)El análisis temático es fundamental en la investigación cualitativa, ofreciendo ideas valiosas pero a menudo requiriendo una cantidad significativa de tiempo y experiencia. Este trabajo aborda algunas limitaciones de los Software Asistidos por Computadora para el Análisis de Datos Cualitativos existentes y presenta un método novedoso diseñado específicamente para asistir en el análisis temático de preguntas abiertas con múltiples etiquetas para encuestas en español. El método propuesto combina la experiencia de dominio con modelos de lenguaje avanzados para establecer categorías preliminares. Posteriormente, el discernimiento humano se combina con medidas de similitud para agilizar la categorización de algunas respuestas utilizando estas categorías preliminares. El proceso culmina en una categorización automatizada robusta y escalable, utilizando diversos modelos, modelos de lenguaje y métricas de precisión. El método propuesto se compone de tres fases modulares que pueden funcionar de manera independiente o colaborativa, ofreciendo una solución integral a los investigadores. Puede reducir el largo proceso de codificación manual aprovechando los Grandes Modelos de Lenguaje (LLMs) y técnicas de Procesamiento de Lenguaje Natural (PLN). La eficacia del método se evalúa a través de su aplicación en un conjunto de datos de la Universidad Nacional de Colombia, mostrando resultados prometedores a través de sus diversos módulos y opciones. El trabajo abre vías para futuras investigaciones, particularmente en la mejora de los métodos de análisis cualitativos con la integración de herramientas modernas.xv, 60 páginasapplication/pdfenghttp://creativecommons.org/licenses/by/4.0/000 - Ciencias de la computación, información y obras generales::004 - Procesamiento de datos Ciencia de los computadores000 - Ciencias de la computación, información y obras generales::005 - Programación, programas, datos de computaciónDevelopment of a software method to assist in the thematic analysis of responses to open ended questions in Spanish-language surveysTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessMedición de softwareSoftware measurementSoftware metricsThematic AnalysisQualitative ResearchSpanish-language SurveysNatural Language Processing (NLP)Multi-label ClassificationZero-Shot ClassificationAnálisis TemáticoInvestigación CualitativaEncuestas en EspañolProcesamiento del Lenguaje Natural (PLN)Clasificación Multi-etiquetaClasificación Zero-ShotDesarrollo de un método de software para asistir en el análisis temático de respuestas a preguntas abiertas en encuestas en español