Development of a software method to assist in the thematic analysis of responses to open ended questions in Spanish-language surveys
Author
Advisor
Type
Trabajo de grado - Maestría
Document language
InglésPublication Date
2023-12Metadata
Show full item recordAbstract
Thematic analysis is fundamental in qualitative research, providing rich insights but often requiring substantial time and expertise. This work addresses some limitations of existing Computer-Assisted Qualitative Data Analysis Software (CAQDAS) and presents a novel method specifically designed to assist in the thematic analysis of multi-label open-ended questions in Spanish-language surveys. The proposed method melds domain expertise with advanced language models to establish preliminary categories. Subsequently, human discernment is combined with similarity measures to streamline the categorization of some responses using these preliminary categories. The process culminates in a robust and scalable automated categorization, utilizing diverse models, language models, and accuracy metrics. The proposed method is composed of three modular phases that can function independently or collaboratively, offering a comprehensive solution for researchers. It can reduce the labor-intensive coding process by leveraging Large Language Models (LLMs) and Natural Language Processing (NLP) techniques. The method's efficacy is evaluated through its application on a dataset from the National University of Colombia, demonstrating promising results across its various modules and pathways. The work opens avenues for further research, particularly in enhancing qualitative analysis methods with the integration of modern tools. (Texto tomado de la fuente)Summary
El análisis temático es fundamental en la investigación cualitativa, ofreciendo ideas valiosas pero a menudo requiriendo una cantidad significativa de tiempo y experiencia. Este trabajo aborda algunas limitaciones de los Software Asistidos por Computadora para el Análisis de Datos Cualitativos existentes y presenta un método novedoso diseñado específicamente para asistir en el análisis temático de preguntas abiertas con múltiples etiquetas para encuestas en español. El método propuesto combina la experiencia de dominio con modelos de lenguaje avanzados para establecer categorías preliminares. Posteriormente, el discernimiento humano se combina con medidas de similitud para agilizar la categorización de algunas respuestas utilizando estas categorías preliminares. El proceso culmina en una categorización automatizada robusta y escalable, utilizando diversos modelos, modelos de lenguaje y métricas de precisión. El método propuesto se compone de tres fases modulares que pueden funcionar de manera independiente o colaborativa, ofreciendo una solución integral a los investigadores. Puede reducir el largo proceso de codificación manual aprovechando los Grandes Modelos de Lenguaje (LLMs) y técnicas de Procesamiento de Lenguaje Natural (PLN). La eficacia del método se evalúa a través de su aplicación en un conjunto de datos de la Universidad Nacional de Colombia, mostrando resultados prometedores a través de sus diversos módulos y opciones. El trabajo abre vías para futuras investigaciones, particularmente en la mejora de los métodos de análisis cualitativos con la integración de herramientas modernas.Keywords
Thematic Analysis ; Qualitative Research ; Spanish-language Surveys ; Natural Language Processing (NLP) ; Multi-label Classification ; Zero-Shot Classification ; Análisis Temático ; Investigación Cualitativa ; Encuestas en Español ; Procesamiento del Lenguaje Natural (PLN) ; Clasificación Multi-etiqueta ; Clasificación Zero-Shot ;
Physical description
ilustraciones, diagramas
Collections
