Metodología para el aprendizaje de máquina a partir de múltiples expertos en procesos de clasificación de bioseñales
Author
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2013Metadata
Show full item recordSummary
En este trabajo se presenta una metodología de entrenamiento de máquina a partir de ambientes multi-etiquetador, cuando la presencia de un conjunto de etiquetas confiable o Ground Truth no puede obtenerse de manera trivial y requiere obtenerse a partir del criterio de un grupo de evaluadores. Mediante la modificación de la formulación estándar de una máquina de soporte vectorial es posible no solo obtener un conjunto de etiquetas confiable, sino también penalizar la calidad de evaluación de cada persona y emitir un valor de carácter objetivo de cara a la naturaleza de los datos. La metodología es probada sobre bases de datos reales como son la base de datos de voz para el estudio de hipernasalidad y la base de datos de fonocardiografía para el estudio de soplos, ambas bases de datos cuentan con etiquetas obtenidas de personal especialista. También es sometida a la base de datos Iris, ampliamente utilizada para ilustrar procedimientos relacionados con el reconocimiento de patrones y a la cual se han adicionado conjuntos de etiquetas simulados para presentar características particulares de la metodología expuesta. De manera adicional, se presenta la extensión de la metodología al caso multiclase abordado desde las propuestas habituales para máquinas de soporte vectorial y se sugiere una formulación especial del problema de optimización que incluye los datos de todas las clases al tiempoSummary
Abstract : In this work, a machine training methodology from multi-labeler environments is presented, when a truthful label set (Ground Truth) cannot obtain by a trivial way and it is necessary to obtain from the experts team criteria. A modification of traditional Support Vector Machine formulation is proposed to obtain a truthful label set and a penalization value for each expert, this penalization values is an objective criterion corresponding with the data nature. The methodology is tested over real database, for instance voice and phonocardiography database used to detect hypernasality and heart murmurs, respectively. Also, the Iris database widely used in pattern recognition scenarios and a simulated label set allow to show particular characteristics of the methodology. Additionally, the multiclass methodology extension is addressed by means of habitual support vector machine proposes. Finally a special optimization formulation is considered to take the information from all the classes at the same timeKeywords
Collections
