Multi-view learning for hierarchical topic detection on corpus of documents

Miniatura

Autores

Calero Espinosa, Juan Camilo

Director

Niño Vasquez, Luis Fernando

Tipo de contenido

Trabajo de grado - Maestría

Idioma del documento

Inglés

Fecha de publicación

2021

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

La detección de temas en grandes colecciones de documentos requiere una considerable cantidad de recursos computacionales, y el número de temas también puede aumentar la carga computacional. Incluso con un elevado nùmero de temas, estos pueden no ser tan específicos como se desea, o simplemente la calidad de los temas comienza a disminuir después de cierto número. Para superar estos obstáculos, proponemos una nueva metodología para la detección jerárquica de temas, que utiliza agrupamiento multi-vista para vincular diferentes modelos de temas extraídos de las partes del discurso y de las entidades nombradas de los documentos. Los resultados en tres conjuntos de documentos muestran que la metodología disminuye el costo en memoria de la detección de temas, permitiendo detectar màs temas y al mismo tiempo mejorar su calidad.

Abstract

Topic detection on a large corpus of documents requires a considerable amount of computational resources, and the number of topics increases the burden as well. However, even a large number of topics might not be as specific as desired, or simply the topic quality starts decreasing after a certain number. To overcome these obstacles, we propose a new methodology for hierarchical topic detection, which uses multi-view clustering to link different topic models extracted from document named entities and part of speech tags. Results on three different datasets evince that the methodology decreases the memory cost of topic detection, improves topic quality and allows the detection of more topics.

Descripción Física/Lógica/Digital

diagramas, ilustraciones a color, tablas

Palabras clave

Citación