Atribución-NoComercial 4.0 InternacionalTrujillo Oyola, LeonardoBernal Malpica, Melanie2025-04-072025-04-072025-03https://repositorio.unal.edu.co/handle/unal/87864ilustraciones a color, diagramas, mapasEn los estudios de encuestas por muestreo, es común que los investigadores requieran estimaciones a nivel de dominios. Sin embargo, estos dominios suelen presentar una muestra reducida o incluso nula, lo que genera varianzas estimadas elevadas y, en consecuencia, estimaciones que no cumplen con los estándares de calidad requeridos. En los casos donde no hay muestra en un dominio específico, ni siquiera es posible calcular el estimador de interés utilizando el diseño muestral. Para abordar esta problemática, surge la metodología de estimación en áreas pequeñas (SAE, por sus siglas en inglés), que permite obtener estimaciones confiables a partir del uso de información auxiliar disponible para toda la población. Esta metodología emplea modelos estadísticos que combinan los datos muestrales con predicciones sobre las unidades no observadas, permitiendo así obtener estimaciones precisas, incluso en dominios sin muestra. Generalmente, se utilizan modelos lineales mixtos para variables continuas y modelos lineales generalizados mixtos en el caso de proporciones. Los modelos tradicionales requieren cumplir ciertos supuestos, como la relación lineal entre las variables auxiliares y la variable objetivo, así como la normalidad de los errores asociados. Además, presentan limitaciones como la multidimensionalidad y la sensibilidad a valores atípicos. Por esta razón, es necesario explorar enfoques más flexibles. El propósito de este trabajo es presentar una metodología basada en modelos de aprendizaje automático con efectos mixtos, que permite calcular los estimadores en áreas pequeñas sin depender de los supuestos lineales. Esta estrategia ofrece ventajas como la robustez ante valores atípicos y una mejor selección de variables. Sustituyendo el modelo lineal por un modelo de aprendizaje automático, se siguen los mismos pasos de estimación del parámetro y su medida de error según la metodología SAE. Finalmente, se realizará un ejercicio de simulación basado en el modelo para comparar las estimaciones, el error cuadrático medio y el sesgo de cada metodología evaluada. Los resultados muestran que los modelos propuestos constituyen una alternativa viable, ya que logran estimaciones similares a las metodologías tradicionales, obteniendo una ganancia frente a los supuestos en la metodología tradicional (Texto tomado de la fuente)Sample surveys have been traditionally recognized as cost-effective means of obtaining information to provide estimates for different parameters, not only for the total population of interest but also for various subpopulations (domains) not large enough (even null) to support direct estimates of adequate precision and then not publishable. Small area estimation is a methodology that considers diverse methods to use available auxiliary information for the whole population to allow us to estimate the parameters in the domains (small areas). One possibility is to consider a linear mixed model or a mixed generalized model in the case of estimating a total population to estimate the variable of interest for the non-sampled units, allowing us to get an estimation for all the domains combining sampling units and non-sampling units. However, traditional models must fulfill some assumptions; for instance, the relationship between the auxiliary variables and the variable of interest must be linear, and the associated prediction errors must follow a particular probability distribution, raising problems of multicollinearity and outliers in some cases. Therefore, we propose in this paper a strategy to substitute the traditional mixed generalized model for a more flexible one. In particular, we study a different approach using machine learning regression methods with mixed effects for estimating proportions in small areas without considering any assumptions and obtaining a gain in robustness for outliers and variable selection. Some approaches have already been proposed in the literature for small-area estimation of proportions. The idea is to substitute the linear model with a machine learning regression method following the same stages for estimating the parameter and its precision according to traditional small-area estimation methods. We present a simulation exercise considering model-based and design-based inferences (logistic mixed models, mixed effects random forest, and mixed effects tree boosting) to compare mean squared errors, biases, and computation times for all the methods considered. Also, an actual application for the evaluation of the National Program for the Substitution of Illicit Crops in Colombia is shown, considering these methods to estimate the proportion of families that have suffered forced eradication in the rural areas of the country.63 páginasapplication/pdfspahttp://creativecommons.org/licenses/by-nc/4.0/510 - Matemáticas::519 - Probabilidades y matemáticas aplicadasEstimación de proporción en áreas pequeñas: enfoque basado en aprendizaje automáticoTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessAprendizaje automático (Inteligencia artificial)Machine learningTeoría de la estimaciónEstimation theoryEstadística matemáticaMathematical statisticsMuestreo (Estadística)Sampling (Statistics)EstimaciónÁrea pequeñaProporciónModelosSemiparamétricoMachine learningEstimationSmall areaProportionModelsSemiparametricEstimation of proportions in small area estimation: machine learning aproachEstimación de área pequeñaSmall area estimation