Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación

Carrasco Ortiz, Jorge Mario

Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación

dc.contributor	González Osorio, Fabio Augusto	spa
dc.contributor.advisor	Sánchez Torres, Jenny Marcela (Thesis advisor)	spa
dc.contributor.author	Carrasco Ortiz, Jorge Mario	spa
dc.date.accessioned	2019-07-02T21:25:40Z	spa
dc.date.available	2019-07-02T21:25:40Z	spa
dc.date.issued	2017-11	spa
dc.description.abstract	Los documentos de texto son una fuente importante de datos para las técnicas de minería. Normalmente, las bases de datos de texto incluyen documentos suficientemente largos para aplicar técnicas de minería de texto convencionales. Sin embargo, en algunas tareas, como el proceso de identificación de áreas de investigación, se cuenta con bases de datos de textos muy cortos, lo cual representa un desafío para las técnicas convencionales de minería de texto. El problema tiene que ver con el pequeño número de términos que no proporcionan suficiente información estadística para encontrar cualquier tipo de relación entre los documentos de la colección. El objetivo principal de este trabajo es mostrar cómo generar grupos temáticos utilizando solo los títulos de proyectos de investigación de una institución de educación superior. En esta tesis presentamos un método para agrupar colecciones de textos cortos a partir de representaciones distribucionales de términos. El método utiliza una colección de referencia de textos con mayor extensión, para encontrar una representación distribucional de términos (DTR, por sus siglas en inglés) que codifica relaciones semánticas y sintácticas entre términos. Estas representaciones son utilizadas posteriormente para mejorar los algoritmos de agrupación. Igualmente, exploramos diferentes estrategias para la representación de términos, así como varias estrategias para la agrupación. El método se evaluó en dos conjuntos de datos. El primero fue construido para este estudio y está compuesto de títulos de artículos científicos, el segundo conjunto de datos corresponde a los títulos de proyectos de investigación de una institución de educación superior. Los resultados fueron evaluados utilizando cuatro medidas extrínsecas (Homogeneity Score, V-measure, Adjusted MI, Pureza) para el primer conjunto de datos, y tres medidas intrínsecas (Davies-Bouldin, QError, Slihouette) para el segundo conjunto de datos. Los resultados muestran que la estrategia de representación distribucional de términos, mejora en gran medida la calidad de las agrupaciones generadas cuando se compara con la producida por las estrategias convencionales de agrupamiento de texto.	spa
dc.description.abstract	Abstract: Text documents are an important source of data for tech mining techniques. Usually, text databases include documents sufficiently long to apply conventional text mining techniques. However, for some tech mining tasks, such as capabilities identification process, the databases available are comprised of very short texts, which represents a challenge for conventional text mining techniques. The problem in question is that the small number of terms fail to provide enough statistical information to find any kind of relationship among the documents in the collection. The main purpose of this work is to show how to generate thematic clusters by using only the titles of research projects from a higher education institution. In this thesis we present a method for clustering very-short-text collections based on distributional text representations. The method uses a reference collection of large texts to find a distributional term representation (DTR) that encodes semantic and syntactic relationships among terms. The DTR is used to represent the very-short texts which are fed to a clustering algorithm. Likewise, we explore different strategies for distributional term representation as well as for clustering. The method was evaluated in two datasets. The first one was assembled for this study and is composed of scientific paper titles, and the second one corresponds to the titles of a set of research projects from a higher education institution. The results were evaluated by using four extrinsic measures (Homogeneity Score, V-measure, Adjusted MI, Purity) for the first dataset, and three intrinsic measures (Davies-Bouldin, QError, Slihouette) for the second dataset. The results show that the distributional term representation strategy greatly improves the quality of the generated clusterings when compared to the one produced by conventional text clustering strategies.	spa
dc.description.degreelevel	Maestría	spa
dc.format.mimetype	application/pdf	spa
dc.identifier.eprints	http://bdigital.unal.edu.co/62532/	spa
dc.identifier.uri	https://repositorio.unal.edu.co/handle/unal/63050
dc.language.iso	spa	spa
dc.relation.ispartof	Universidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de Sistemas	spa
dc.relation.ispartof	Ingeniería de Sistemas	spa
dc.relation.references	Carrasco Ortiz, Jorge Mario (2017) Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.	spa
dc.rights	Derechos reservados - Universidad Nacional de Colombia	spa
dc.rights.accessrights	info:eu-repo/semantics/openAccess	spa
dc.rights.license	Atribución-NoComercial 4.0 Internacional	spa
dc.rights.uri	http://creativecommons.org/licenses/by-nc/4.0/	spa
dc.subject.ddc	0 Generalidades / Computer science, information and general works	spa
dc.subject.ddc	02 Bibliotecología y ciencias de la información / Library and information sciences	spa
dc.subject.ddc	8 Literatura y retórica / Literature	spa
dc.subject.proposal	Agrupación	spa
dc.subject.proposal	Textos cortos	spa
dc.subject.proposal	Representación distribucional de términos	spa
dc.subject.proposal	Kernel k-medias	spa
dc.subject.proposal	Word2Vec	spa
dc.subject.proposal	Scopus	spa
dc.subject.proposal	ScienceDirect	spa
dc.subject.proposal	Clustering	spa
dc.subject.proposal	Short texts	spa
dc.subject.proposal	Distributional term representation	spa
dc.subject.proposal	NMF	spa
dc.subject.proposal	Information retrival	spa
dc.title	Agrupación de textos cortos para el análisis de temas latentes de investigación en un conjunto de datos de proyectos de investigación	spa
dc.type	Trabajo de grado - Maestría	spa
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc	spa
dc.type.coarversion	http://purl.org/coar/version/c_ab4af688f83e57aa	spa
dc.type.content	Text	spa
dc.type.driver	info:eu-repo/semantics/masterThesis	spa
dc.type.redcol	http://purl.org/redcol/resource_type/TM	spa
dc.type.version	info:eu-repo/semantics/acceptedVersion	spa
oaire.accessrights	http://purl.org/coar/access_right/c_abf2	spa

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: TesisMSc_f.pdf
Tamaño:: 1.61 MB
Formato:: Adobe Portable Document Format

Descargar

Colecciones

Maestría en Ingeniería - Sistemas y Computación