Una comparación para el reconocimiento de patrones del habla usando Modelos de Markov Oculto y Redes Neuronales en el idioma Español
Cargando...
Archivos
Autores
Camargo Abril, Gustavo Arnulfo
Tipo de contenido
Document language:
Español
Fecha
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
Con el progreso de la tecnología, especialmente en el campo de la computación, es cada vez más imperativo que la interacción entre humanos y
máquinas sea dinámica y eficiente. Esta evolución conlleva la necesidad
de desarrollar sistemas que faciliten tal interacción a través del lenguaje
natural humano, es decir, el habla. En la creación de estos sistemas, se
destacan principalmente dos enfoques: la teoría del Modelo de Markov
Oculto y las Redes Neuronales, siendo estos últimos los más investigados
y los que han logrado mejoras de desempeño en años recientes. Hay varios
tipos de modelos de redes usadas en este campo: las RNN (Recurrent
Neural Network), CNN (Convolutional Neural Network) y TDNN (Time
Delay Neural Network). Este documento propone una comparación entre
los Modelos de Markov Ocultos (HMM, por sus siglas en inglés, Hidden
Markov Model) y las Redes Neuronales, específicamente entre las Redes
Neuronales TDNN. Esta comparación se llevará a cabo utilizando diferentes tipos de características extraídas de los datos (grabaciones), lo que
permite mejorar el desempeño en el caso del modelo HMM (Coeficientes cepstrales, Delta, Delta-Delta, LDA, MLLT) y para el modelo basado
en redes neuronales se explorará otro tipo de características propias de
la metodología de redes, (i-vectors), donde se explicarán en cada etapa
donde sean usadas. Para la evaluación de los modelos se tendrá en cuenta
las dos métricas usuales: la tasa de error por palabra (WER) y la tasa de
error por carácter (CER), medidas comunes en todos los trabajos dentro
del campo del reconocimiento de voz (Texto tomado de la fuente).
Abstract
With the advancement of technology, particularly in computing, dynamic and efficient human-machine interaction has become increasingly essential. This evolution underscores the need to develop systems that facilitate such interaction through natural human language, specifically speech. Two primary approaches stand out in the creation of these systems: the Hidden Markov Model (HMM) and Neural Networks, the latter having received significant research attention and performance enhancements in recent years. Several types of neural network models are utilized in this field, including Recurrent Neural Networks (RNN), Convolutional Neural Networks (CNN), and Time Delay Neural Networks (TDNN). This paper presents a comparison between HMMs and Neural Networks, focusing specifically on TDNNs. The comparison involves various feature extraction techniques from audio data (recordings) that enhance performance for HMM models (such as Cepstral Coefficients, Delta, Delta-Delta, LDA, and MLLT) and, for neural network models, unique features specific to neural methodologies (i-vectors), each of which will be explained at the relevant stage. For model evaluation, two standard metrics will be used: Word Error Rate (WER) and Character Error Rate (CER), both commonly employed in speech recognition research.
Palabras clave propuestas
Reconocimiento de patrones del habla; Speech Pattern Recognition; Modelos de Markov Ocultos; Hidden Markov Models; Redes Neuronales; Neural Networks; Redes Neuronales de Retardo Temporal; Time Delay Neural Networks; Tasa de Error por Palabra; Word Error Rate; Coeficientes Cepstrales; Cepstral Coefficients
Descripción
ilustraciones, diagramas