Categorización de letras de canciones de un portal web usando agrupación

dc.contributorLeón Guzman, Elizabethspa
dc.contributor.authorParra Anzola, Fabio Leonardospa
dc.date.accessioned2019-06-29T13:26:10Zspa
dc.date.available2019-06-29T13:26:10Zspa
dc.date.issued2013spa
dc.description.abstractAlgoritmos de clasificación y de agrupación han sido usados ampliamente en sistemas de recuperación de información musical (MIR) para organizar repositorios musicales en categorías o grupos relacionados, por ejemplo género, modo o tema, usando el sonido o sonido en combinación con la letra de la canción. Sin embargo, la investigación relacionada con agrupación usando solamente la letra de la canción es poca. El objetivo principal de este trabajo es definir un modelo no supervisado de minería de datos para la agrupación de letras de canciones recopiladas en un portal web, usando solamente características de la letra de la canción, con el fin de ofrecer mejores opciones de búsqueda a los usuarios del portal. El modelo propuesto primero identifica el lenguaje de las letras de canciones usando Naive Bayes y n-grams (para el caso de este trabajo se identificaron 30.000 letras de canciones en Español y 30.000 en Ingles). Luego las letras son representadas en un modelo de espacio vectorial Bag OfWords (BOW), usando características de Part Of Speech (POS) y transformando los datos al formato TF-IDF. Posteriormente, se estima el numero apropiado de agrupaciones (K) y se usan algoritmos particionales y jerárquicos con el _n de obtener los grupos diferenciados de letras de canciones. Para evaluar los resultados de cada agrupación se usan medidas como el índice Davies Bouldin (DBI) y medidas internas y externas de similaridad de los grupos. Finalmente, los grupos se etiquetan usando palabras frecuentes y reglas de asociación identificadas en cada grupo. Los experimentos realizados muestran que la música puede ser organizada en grupos relacionados como género, modo, sentimientos y temas, la cual puede ser etiquetada con técnicas no supervisadas usando solamente la información de la letra de la canción.spa
dc.description.abstractAbstract. Classification and clustering algorithms have been applied widely in Music Information Retrieval (MIR) to organize music repositories in categories or clusters, like genre, mood or topic, using sound or sound with lyrics. However, clustering related research using lyrics information only is not much. The main goal of this work is to define an unsupervised text mining model for grouping lyrics compiled in a website, using lyrics features only, in order to offer better search options to the website users. The proposal model first performs a language identification for lyrics using Nafive Bayes and n-grams (for this work 30.000 lyrics in Spanish and 30.000 in English were identifed). Next lyrics are represented in a vector space model Bag Of Words (BOW), using Part Of Speech (POS) features and transforming data to TF-IDF format. Then, the appropriate number of clusters (K) is estimated and partitional and hierarchical methods are used to perform clustering. For evaluating the clustering results, some measures are used such as Davies Bouldin Index (DBI), intra similarity and inter similarity measures. At last, the final clusters are tagged using top words and association rules per group. Experiments show that music could be organized in related groups as genre, mood, sentiment and topic, and tagged with unsupervised techniques using only lyrics information.spa
dc.description.degreelevelMaestríaspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.eprintshttp://bdigital.unal.edu.co/46305/spa
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/52054
dc.language.isospaspa
dc.relation.ispartofUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrialspa
dc.relation.ispartofDepartamento de Ingeniería de Sistemas e Industrialspa
dc.relation.referencesParra Anzola, Fabio Leonardo (2013) Categorización de letras de canciones de un portal web usando agrupación. Maestría thesis, Universidad Nacional de Colombia.spa
dc.rightsDerechos reservados - Universidad Nacional de Colombiaspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.licenseAtribución-NoComercial 4.0 Internacionalspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/spa
dc.subject.ddc0 Generalidades / Computer science, information and general worksspa
dc.subject.ddc62 Ingeniería y operaciones afines / Engineeringspa
dc.subject.ddc78 Música / Musicspa
dc.subject.proposalRecuperación de Información Musicalspa
dc.subject.proposalAgrupación de Páginas Webspa
dc.subject.proposalAgrupaciónspa
dc.subject.proposalAprendizaje no Supervisadospa
dc.subject.proposalSelección de Característicasspa
dc.subject.proposalMinería de Datosspa
dc.subject.proposalMinería de Texto Análisis de Letras de Cancionesspa
dc.subject.proposalReglas de Asociaciónspa
dc.subject.proposalMusic Information Retrievalspa
dc.subject.proposalClusteringspa
dc.subject.proposalUnsupervised Learningspa
dc.subject.proposalFeature Selectionspa
dc.subject.proposalData Miningspa
dc.subject.proposalText Miningspa
dc.subject.proposalLyrics Analysisspa
dc.subject.proposalAssociation Rulesspa
dc.titleCategorización de letras de canciones de un portal web usando agrupaciónspa
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
02822295.2013.pdf
Tamaño:
848.8 KB
Formato:
Adobe Portable Document Format