Desarrollo de un modelo basado en redes neuronales para la clasificación automática de textos periodísticos: caso de estudio 20 news group

Cargando...
Miniatura

Document language:

Español

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

En la era digital, la clasificación automática de textos se ha convertido en una herramienta fundamental para gestionar eficientemente la gran cantidad de información generada a diario, especialmente en el ámbito periodístico. Este trabajo presenta el desarrollo y la evaluación de un modelo basado en redes neuronales para clasificar automáticamente artículos del conjunto de datos 20 Newsgroups, que incluye textos periodísticos en inglés categorizados en 20 temáticas distintas. Se implementaron tanto modelos tradicionales (como Regresión Logística, Random Forest, SVM, XGBoost y KNN) como modelos de redes neuronales (MLP, CNN, LSTM, GRU, BERT y XLNet). El preprocesamiento incluyó limpieza, tokenización y representación de texto con TF-IDF. Los resultados muestran que los modelos BERT, MLP y SVM alcanzaron las mayores precisiones (cercanas al 91%), mientras que modelos como GRU y KNN tuvieron desempeños significativamente inferiores. Estos hallazgos evidencian la eficacia de las redes neuronales, especialmente aquellas basadas en transformers, para tareas complejas de clasificación textual. (Texto tomado de la fuente)

Abstract

In the digital age, automatic text classification has become a fundamental tool for efficiently managing the vast amount of information generated daily, particularly in the journalistic domain. This work presents the development and evaluation of a neural network-based model to automatically classify articles from the 20 Newsgroups dataset, which consists of English-language journalistic texts divided into 20 thematic categories. Both traditional models (Logistic Regression, Random Forest, SVM, XGBoost, and KNN) and neural network-based models (MLP, CNN, LSTM, GRU, BERT, and XLNet) were implemented. Preprocessing included cleaning, tokenization, and text representation using TF-IDF. Results show that BERT, MLP, and SVM achieved the highest accuracy scores (around 91%), while models such as GRU and KNN performed significantly worse. These findings highlight the effectiveness of neural networks—especially transformer-based architectures—for complex text classification tasks

Descripción

ilustraciones, diagramas

Palabras clave

Citación