Mostrar el registro sencillo del documento

dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacional
dc.contributor.advisorOspina Arango, Juan David
dc.contributor.advisorCorrea Morales, Juan Carlos
dc.contributor.authorCardona Alzate, Néstor Iván
dc.description.abstractThis thesis addresses the problem of variable selection using the random forest method when the underlying model for the response variable is linear. To this end, simulated data sets with di_erent characteristics are con_gured and then, the methodology applied, and the prediction error measured each time a variable is eliminated. This is done to evaluate the selection algorithm, which leads to identifying that it is e_cient when data sets contain groups of predictor variables with a size less than 8. Also, this is done to evaluate the random forest method, which leads to identifying that the total number of predictor variables is the factor that most strongly impacts its performance.
dc.description.abstractEl presente trabajo aborda el problema de selección de variables empleando el método de bosques aleatorios cuando el modelo subyacente para la variable respuesta es de tipo lineal. Para ello se configuran conjuntos de datos simulados con diferentes características, sobre los cuales se aplica la metodología y se mide el error de predicción al eliminar cada variable. Con esto se realiza en primera instancia, una evaluación del algoritmo de selección en la que se identifica que este es eficiente cuando los conjuntos de datos contienen grupos de variables predictoras con tamaño inferior a 8 y en segunda instancia, una evaluación del método de bosques aleatorios en la que se idéntica que el número total de variables predictoras es el factor que más fuertemente impacta su desempeño.
dc.rightsDerechos reservados - Universidad Nacional de Colombia
dc.subject.ddcMatemáticas::Probabilidades y matemáticas aplicadas
dc.titlePredicción y selección de variables con bosques aleatorios en presencia de variables correlacionadas
dc.typeDocumento de trabajo
dc.rights.spaAcceso abierto
dc.description.additionalMaestría en Ciencias - estadística
dc.publisher.departmentEscuela de estadística
dc.publisher.branchUniversidad Nacional de Colombia - Sede Medellín
dc.relation.referencesAltmann, A., Tolo si, L., Sander, O., y Lengauer, T. (2010, 04). Permutation importance: a corrected feature importance measure. Bioinforma- tics, 26(10), 1340-1347. Descargado de bioinformatics/btq134 doi: 10.1093/bioinformatics/btq134
dc.relation.referencesArcher, K. J., y Kimes, R. V. (2008). Empirical characterization of random forest variable importance measures. Computational Statistics Data Analysis, 52(4), 2249 - 2260. Descargado de science/article/pii/S0167947307003076 doi: .1016/j.csda.2007.08.015
dc.relation.referencesBlum, A. L., y Langley, P. (1997). Selection of relevant features and examples in machine learning. Arti cial Intelligence, 97(1), 245 - 271. Descargado de pii/S0004370297000635 doi: 00063-5
dc.relation.referencesBoulesteix, A.-L., Janitza, S., Kruppa, J., y K onig, I. R. (2012). Overview of random forest methodology and practical guidance with emphasis on computational biology and bioinformatics. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2(6), 493{507. Descargado de doi: 10.1002/widm.1072
dc.relation.referencesBoulesteix, A.-L., Janitza, S., Kruppa, J., y K onig, I. R. (2012). Overview of random forest methodology and practical guidance with emphasis on computational biology and bioinformatics. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2(6), 493{507. Descargado de doi: 10.1002/widm.1072
dc.relation.referencesBreiman, L. (2001, 01 de Oct). Random forests. Machine Learning , 45(1), 5{ 32. Descargado de doi: 10.1023/A:1010933404324
dc.relation.referencesDegenhardt, F., Seifert, S., y Szymczak, S. (2017, 10). Evaluation of variable selection methods for random forests and omics data sets. Brie ngs in Bioinformatics, 20(2), 492-503. Descargado de .1093/bib/bbx124 doi: 10.1093/bib/bbx124
dc.relation.referencesD az-Uriarte, R., y Alvarez de Andr es, S. (2006, 06 de Jan). Gene selection and classi cation of microarray data using random forest. BMC Bioinformatics, 7(1), 3. Descargado de doi: 10.1186/1471-2105-7-3
dc.relation.referencesEfron, B. (1979b). Computers and the theory of statistics: Thinking the unthinkable. SIAM Review, 21(4), 460-480. Descargado de http://
dc.relation.referencesGenuer, R., Poggi, J.-M., y Tuleau-Malot, C. (2015). VSURF: An R Package for Variable Selection Using Random Forests. The R Journal , 7(2), 19{ 33. Descargado de doi: 10.32614/RJ-2015-018
dc.relation.referencesGregorutti, B., Michel, B., y Saint-Pierre, P. (2017, 01 de May). Correlation and variable importance in random forests. Statistics and Com- puting , 27(3), 659{678. Descargado de s11222-016-9646-1 doi: 10.1007/s11222-016-9646-1
dc.relation.referencesHastie, T., Tibshirani, R., y Friedman, J. (2009). The elements of statistical learning (2.a ed.). Springer-Verlag New York. doi: 10.1007/978-0-387 -84858-7
dc.relation.referencesKim, H., y Loh, W.-Y. (2001). Classi cation trees with unbiased multiway splits. Journal of the American Statistical Association, 96(454), 589-604. Descargado de doi: 10.1198/016214501753168271
dc.relation.referencesLiaw, A., y Wiener, M. (2002). Classi cation and regression by randomforest. R News, 2(3), 18-22. Descargado de doc/Rnews/
dc.relation.referencesMessenger, R., y Mandell, L. (1972). A modal search technique for predictive nominal scale multivariate analysis. Journal of the American Statistical Asso- ciation, 67(340), 768-772. Descargado de 01621459.1972.10481290 doi: 10.1080/01621459.1972.10481290
dc.relation.referencesR Core Team. (2018). R: A language and environment for statistical computing [Manual de software inform atico]. Vienna, Austria. Descargado de
dc.relation.referencesSandri, M., y Zuccolotto, P. (2008). A bias correction algorithm for the gini variable importance measure in classi cation trees. Journal of Computatio- nal and Graphical Statistics, 17(3), 611-628. Descargado de https://doi .org/10.1198/106186008X344522 doi: 10.1198/106186008X344522
dc.relation.referencesTolo si, L., y Lengauer, T. (2011, 05). Classi cation with correlated features: unreliability of feature ranking and solutions. Bioinformatics, 27(14), 1986- 1994. Descargado de btr300 doi: 10.1093/bioinformatics/btr300
dc.relation.referencesWright, M., y Ziegler, A. (2017). ranger: A fast implementation of random forests for high dimensional data in c++ and r. Journal of Statistical Software, Articles, 77(1), 1{17. Descargado de v077/i01 doi: 10.18637/jss.v077.i01
dc.relation.referencesZiegler, A., y K onig, I. R. (2014). Mining data with random forests: current options for real-world applications. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 4(1), 55-63. Descargado de https:// doi: 10 .1002/widm.1114
dc.subject.proposalAnálisis de regresión
dc.subject.proposalPredictor variables
dc.subject.proposalMétodos de simulación
dc.subject.proposalPredictor variables

Archivos en el documento


Este documento aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del documento

Atribución-NoComercial-SinDerivadas 4.0 InternacionalEsta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial 4.0.Este documento ha sido depositado por parte de el(los) autor(es) bajo la siguiente constancia de depósito