Una comparación para el reconocimiento de patrones del habla usando Modelos de Markov Oculto y Redes Neuronales en el idioma Español
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2024Metadata
Show full item recordSummary
Con el progreso de la tecnología, especialmente en el campo de la computación, es cada vez más imperativo que la interacción entre humanos y máquinas sea dinámica y eficiente. Esta evolución conlleva la necesidad de desarrollar sistemas que faciliten tal interacción a través del lenguaje natural humano, es decir, el habla. En la creación de estos sistemas, se destacan principalmente dos enfoques: la teoría del Modelo de Markov Oculto y las Redes Neuronales, siendo estos últimos los más investigados y los que han logrado mejoras de desempeño en años recientes. Hay varios tipos de modelos de redes usadas en este campo: las RNN (Recurrent Neural Network), CNN (Convolutional Neural Network) y TDNN (Time Delay Neural Network). Este documento propone una comparación entre los Modelos de Markov Ocultos (HMM, por sus siglas en inglés, Hidden Markov Model) y las Redes Neuronales, específicamente entre las Redes Neuronales TDNN. Esta comparación se llevará a cabo utilizando diferentes tipos de características extraídas de los datos (grabaciones), lo que permite mejorar el desempeño en el caso del modelo HMM (Coeficientes cepstrales, Delta, Delta-Delta, LDA, MLLT) y para el modelo basado en redes neuronales se explorará otro tipo de características propias de la metodología de redes, (i-vectors), donde se explicarán en cada etapa donde sean usadas. Para la evaluación de los modelos se tendrá en cuenta las dos métricas usuales: la tasa de error por palabra (WER) y la tasa de error por carácter (CER), medidas comunes en todos los trabajos dentro del campo del reconocimiento de voz (Texto tomado de la fuente).Abstract
With the advancement of technology, particularly in computing, dynamic and efficient human-machine interaction has become increasingly essential. This evolution underscores the need to develop systems that facilitate such interaction through natural human language, specifically speech. Two primary approaches stand out in the creation of these systems: the Hidden Markov Model (HMM) and Neural Networks, the latter having received significant research attention and performance enhancements in recent years. Several types of neural network models are utilized in this field, including Recurrent Neural Networks (RNN), Convolutional Neural Networks (CNN), and Time Delay Neural Networks (TDNN). This paper presents a comparison between HMMs and Neural Networks, focusing specifically on TDNNs. The comparison involves various feature extraction techniques from audio data (recordings) that enhance performance for HMM models (such as Cepstral Coefficients, Delta, Delta-Delta, LDA, and MLLT) and, for neural network models, unique features specific to neural methodologies (i-vectors), each of which will be explained at the relevant stage. For model evaluation, two standard metrics will be used: Word Error Rate (WER) and Character Error Rate (CER), both commonly employed in speech recognition research.Keywords
Reconocimiento de patrones del habla ; Speech Pattern Recognition ; Modelos de Markov Ocultos ; Hidden Markov Models ; Redes Neuronales ; Neural Networks ; Redes Neuronales de Retardo Temporal ; Time Delay Neural Networks ; Tasa de Error por Palabra ; Word Error Rate ; Coeficientes Cepstrales ; Cepstral Coefficients ;
Physical description
ilustraciones, diagramas
Collections
