Una comparación para el reconocimiento de patrones del habla usando Modelos de Markov Oculto y Redes Neuronales en el idioma Español

Camargo Abril, Gustavo Arnulfo

Una comparación para el reconocimiento de patrones del habla usando Modelos de Markov Oculto y Redes Neuronales en el idioma Español

Archivos

Tesis de Maestría en Ciencias - Estadística (7.75 MB)

Autores

Camargo Abril, Gustavo Arnulfo

Director

Calderón Villanueva, Sergio Alejandro

Tipo de contenido

Trabajo de grado - Maestría

Document language:

Español

Fecha

2024

Documentos PDF

Resumen

Con el progreso de la tecnología, especialmente en el campo de la computación, es cada vez más imperativo que la interacción entre humanos y máquinas sea dinámica y eficiente. Esta evolución conlleva la necesidad de desarrollar sistemas que faciliten tal interacción a través del lenguaje natural humano, es decir, el habla. En la creación de estos sistemas, se destacan principalmente dos enfoques: la teoría del Modelo de Markov Oculto y las Redes Neuronales, siendo estos últimos los más investigados y los que han logrado mejoras de desempeño en años recientes. Hay varios tipos de modelos de redes usadas en este campo: las RNN (Recurrent Neural Network), CNN (Convolutional Neural Network) y TDNN (Time Delay Neural Network). Este documento propone una comparación entre los Modelos de Markov Ocultos (HMM, por sus siglas en inglés, Hidden Markov Model) y las Redes Neuronales, específicamente entre las Redes Neuronales TDNN. Esta comparación se llevará a cabo utilizando diferentes tipos de características extraídas de los datos (grabaciones), lo que permite mejorar el desempeño en el caso del modelo HMM (Coeficientes cepstrales, Delta, Delta-Delta, LDA, MLLT) y para el modelo basado en redes neuronales se explorará otro tipo de características propias de la metodología de redes, (i-vectors), donde se explicarán en cada etapa donde sean usadas. Para la evaluación de los modelos se tendrá en cuenta las dos métricas usuales: la tasa de error por palabra (WER) y la tasa de error por carácter (CER), medidas comunes en todos los trabajos dentro del campo del reconocimiento de voz (Texto tomado de la fuente).

Abstract

With the advancement of technology, particularly in computing, dynamic and efficient human-machine interaction has become increasingly essential. This evolution underscores the need to develop systems that facilitate such interaction through natural human language, specifically speech. Two primary approaches stand out in the creation of these systems: the Hidden Markov Model (HMM) and Neural Networks, the latter having received significant research attention and performance enhancements in recent years. Several types of neural network models are utilized in this field, including Recurrent Neural Networks (RNN), Convolutional Neural Networks (CNN), and Time Delay Neural Networks (TDNN). This paper presents a comparison between HMMs and Neural Networks, focusing specifically on TDNNs. The comparison involves various feature extraction techniques from audio data (recordings) that enhance performance for HMM models (such as Cepstral Coefficients, Delta, Delta-Delta, LDA, and MLLT) and, for neural network models, unique features specific to neural methodologies (i-vectors), each of which will be explained at the relevant stage. For model evaluation, two standard metrics will be used: Word Error Rate (WER) and Character Error Rate (CER), both commonly employed in speech recognition research.

Palabras clave propuestas

Reconocimiento de patrones del habla; Speech Pattern Recognition; Modelos de Markov Ocultos; Hidden Markov Models; Redes Neuronales; Neural Networks; Redes Neuronales de Retardo Temporal; Time Delay Neural Networks; Tasa de Error por Palabra; Word Error Rate; Coeficientes Cepstrales; Cepstral Coefficients

Descripción

ilustraciones, diagramas

URI

https://repositorio.unal.edu.co/handle/unal/87165

Colecciones

Maestría en Ciencias - Estadística

Página completa del ítem

Una comparación para el reconocimiento de patrones del habla usando Modelos de Markov Oculto y Redes Neuronales en el idioma Español

Archivos

Autores

Director

Tipo de contenido

Editor

Document language:

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Resumen

Abstract

Palabras clave propuestas

Descripción

Palabras clave

Citación

URI

Colecciones