Parameter estimation in mixture models using evolutive algorithms
Author
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2015-01-10Metadata
Show full item recordSummary
The mixture models are widely used in cases when there are elements that come from diverse populations, mixed in a superpopulation. i.e. the proportions of expresed genes, and the weight of colombian $100 coins, year 1994. There are two main approaches for the modelling of mixture models: the bayesian and the clasical method. In the bayesian approach, the data are modelated and fitted to a given distribution, for example, the Dirichlet distribution. Further, the data are clustered for the posterior analysis. The classical method is the maximum likelihood estimation, using the Expectation-Maximization (EM) algorithm. This last method needs, as initial data, the amount of populations and their proportions in the superpopulation. Often, these data are very difficult to know or measure, because of the unknown nature of the problem. For that reason, in this work we propose the use of evolutive algorithms, such as genetic algorithms, simulated annealing and taboo search, to estimate the parameters of the mixture models. We propose an algorithm for the comparison of evolutive and traditional methods, and we illustrate the use of this algorithm with a real application. We found that the evolutive algorithms are a competitive option to estimate the parameters in mixture models in the cases when the populations in the mixture follows a gamma distribution, the weights of the populations in the mixture are even and the sample size is bigger than 100 items. For the mixture of normal distributions and the estimation of the number of populations in a mixture, the traditional method is a better option than the genetic algorithm.Summary
Resumen: Los modelos de mezclas son ampliamente usados en casos donde se tienen elementos de poblaciones diversas, unidos en una súper población. Como ejemplos de ´estos se encuentran las proporciones de genes expresados y el peso de monedas de COP$100 del año 1994. Para su modelación se han utilizado enfoques bayesianos, donde se utiliza la modelación de los datos y el ajuste a distribuciones, por ejemplo, la Dirichlet para la agrupación de los datos y su posterior análisis. Otro enfoque es el clásico, el cual se basa en la estimación con máxima verosimilitud, usando el algoritmo EM (Expectation - Maximization). Este ´ultimo necesita ´ como datos iniciales la cantidad de poblaciones existentes y sus proporciones, datos que en la vida aplicada muchas veces son desconocidos. Es por esto que se proponen los algoritmos evolutivos, como lo son los algoritmos gen éticos, simulated annealing y búsqueda tabú como métodos que pueden servir para encontrar los parámetros de estimación de los modelos de mezclas. Para el desarrollo de este estudio se desarrolló un algoritmo para la comparación de métodos evolutivos y tradicionales y se incluye un ejemplo de aplicación. Se encontró que los algoritmos evolutivos son una opción competitiva para la estimación de parámetros en distribuciones de mezclas en los casos cuando las poblaciones en la mezcla siguen una distribución gamma, los pesos en las poblaciones son balanceados y el tamaño de muestra es mayor de 100 ítems. Para las mezclas de distribuciones normales y la estimación del número de poblaciones en una mezcla, el método tradicional es una mejor opción que el algoritmo gen éticoKeywords
Collections
