Técnicas de minería de datos para el análisis de pruebas SABER

dc.contributor.advisorCorrea Morales, Juan Carlos
dc.contributor.authorAhumada Riaño, Diana Paola
dc.contributor.cvlachttps://scienti.minciencias.gov.co/cvlac/EnRecursoHumano/inicio.dospa
dc.coverage.temporalColombia
dc.coverage.temporalColombia
dc.date.accessioned2023-07-17T16:18:08Z
dc.date.available2023-07-17T16:18:08Z
dc.date.issued2023-07-08
dc.descriptionIlustracionesspa
dc.description.abstractEn los últimos años, el concepto de ‘calidad en educación’ ha adquirido relevancia, en particular, se le ha dado bastante atención a los resultados de los exámenes estandarizados, como las pruebas Saber 11 y las pruebas PISA, y, así mismo, se han utilizado como herramientas para evaluar una parte de la calidad educativa. Por esta razón, es necesario realizar análisis estadísticos que permitan tener una mejor comprensión de los factores que influyen en los resultados de este tipo de pruebas, los cuales pueden estar relacionados con las condiciones socioeconómicas de los estudiantes, la infraestructura escolar, entre otros aspectos. Es así que, en función de obtener una visión más precisa y completa de la situación educativa en el departamento de Antioquia. En este trabajo se analizarán las variables socioeconómicas proporcionadas en los datos del Icfes con el propósito de ofrecer un panorama de las posibles causas de los resultados de las pruebas Saber 11 en cada una de las subregiones que la componen. El objetivo de esta investigación es, entonces, realizar un diagnóstico del nivel educativo en el departamento de Antioquia contrastando el desempeño en las pruebas Saber 11 de cada una de las subregiones del departamento, el puntaje global y la información socioeconómica de los estudiantes que presentaron la prueba durante el periodo 2017-2019. Para alcanzar este objetivo, se llevó a cabo una revisión de la literatura sobre los métodos y modelos que se utilizan para analizar pruebas estandarizadas en educación. Consecuentemente, se decidió emplear el proceso de clúster con K-Means para clasificar a los grupos de estudiantes según sus características socioeconómicas, utilizando los programas RStudio y Python. Así pues, se clasificó la población en 10 grupos mediante el proceso de clusterización teniendo en cuenta las variables socioeconómicas presentadas en las bases de datos con el fin de describir algunos de los comportamientos de las variables según la subregión. Finalmente, se llevó a cabo una prueba de homogeneidad para examinar las variables que podrían influir en los resultados de las pruebas Saber 11 en el departamento de Antioquia, considerando las características socioeconómicas de los estudiantes. (Texto tomado de la fuente)spa
dc.description.abstractThe concept of ‘quality in education’ has gained greater relevance in recent years, placing a significant importance on the results of standardized exams such as the Saber 11 and PISA tests, using them as tools to evaluate a part of the educational quality. For this reason, it is necessary to conduct statistical analyses that allow a better understanding of the factors that influence the results of these types of standardized tests, which may be related to socioeconomic conditions, school infrastructure, among other aspects. In this way, a more complete and accurate view of the educational situation in the department of Antioquia can be obtained. In this work only the socioeconomic variables provided by the Icfes data will be analyzed to give an insight into the possible causes of the Saber test results in each of the subregions of Antioquia. The objective of this work is, then, to diagnose the educational level in the department of Antioquia through the performance in the Saber 11 tests of each of the department’s subregions, contrasting the overall score and the socioeconomic information of the students who took the test during the period 2017-2019. To achieve this objective, a literature review on the methods and models that can be used to analyze standardized tests in education was carried out. Consequently the K-Means clustering process was decided to be employed to classify groups of students according to their socioeconomic characteristics, using RStudio and Python programs. Thus the population was classified into 10 groups through the clustering process, taking into account the socioeconomic variables presented in the databases, in order to describe some behaviors of the variables according to the subregion. Finally, a homogeneity test was conducted to examine the variables that could influence the results of the Saber 11 tests in the department of Antioquia, considering the socioeconomic characteristics.eng
dc.description.curricularareaÁrea Curricular Estadísticaspa
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagíster en Ciencias - Estadísticaspa
dc.format.extent158 páginasspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.instnameUniversidad Nacional de Colombiaspa
dc.identifier.reponameRepositorio Institucional Universidad Nacional de Colombiaspa
dc.identifier.repourlhttps://repositorio.unal.edu.co/spa
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/84182
dc.language.isospaspa
dc.publisherUniversidad Nacional de Colombiaspa
dc.publisher.branchUniversidad Nacional de Colombia - Sede Medellínspa
dc.publisher.facultyFacultad de Cienciasspa
dc.publisher.placeMedellín, Colombiaspa
dc.publisher.programMedellín - Ciencias - Maestría en Ciencias - Estadísticaspa
dc.relation.indexedLaReferenciaspa
dc.relation.referencesAgresti, A. (1990). Categorical data analysis. New York: John Wiley.spa
dc.relation.referencesArenas, G. (2002). Las madres en la educación, una voz siempre presente pero, ¿reconocida. El harén pedagógico: perspectiva de género en la organización escolar , 103–118.spa
dc.relation.referencesAristizabal, G. C., Rosero, M. D., Bedoya, J. T., y cols. (2016). Causas de las diferencias en desempeño escolar entre los colegios públicos y privados: Colombia en las pruebas saber11 2014 (Inf. Téc.).spa
dc.relation.referencesAustin, P. C. (2011). An introduction to propensity score methods for reducing the effects of confounding in observational studies (Vol. 1).spa
dc.relation.referencesBernal, L. K. A.-G., Bernal, G., y cols. (2016). Brechas de género en el rendimiento escolar a lo largo de la distribución de puntajes: evidencia pruebas Saber 11° (Inf. Tec.). Universidad Javeriana-Bogotá.spa
dc.relation.referencesBerry, M. J., y Linoff, G. S. (2004). Data mining techniques: For marketing, sales, and customer relationship management. John Wiley & Sons.spa
dc.relation.referencesBischl, B., Lang, M., Kotthoff, L., Schiffner, J., Richter, J., Studerus, E., . . . [...] (2021). mlr: Machine learning in r [Manual de software informático]. Descargado de https:// mlr.mlr-org.com/ (R package versión 2.18.0)spa
dc.relation.referencesBorg, W. R., y Gall, M. D. (1984). Educational research: An introduction. British Journal of Educational Studies, 32 (3), 274–274.spa
dc.relation.referencesBorg, W. R., y Gall, M. D. (1984). Educational research: An introduction. British Journal of Educational Studies, 32 (3), 274–274.spa
dc.relation.referencesCastro Aristizábal, G., Diaz Rosero, M., y Tobar Bedoya, J. (2016). Causas de las diferencias en desempeño escolar entre los colegios públicos y privados: Colombia en las pruebas Saber11 2014 (Inf. Tec.). Faculty of Economics and Management, Pontificia Universidad Javeriana Cali.spa
dc.relation.referencesCastro, L. M. C., Ortiz, F., y Lemus, D. F. (2016). Construcción de un índice socioeconómico familiar para los estudiantes que presentan la prueba Saber 11. Comunicaciones en Estadística, 9 (1), 79–92.spa
dc.relation.referencesChecchi, D., y Peragine, V. (2010). Inequality of opportunity in italy. The Journal of Economic Inequality , 8 (4), 429–450.spa
dc.relation.referencesChica Gómez, S., Galvis Gutiérrez, D., y Ramírez Hassan, A. (2011). Determinantes del rendimiento académico en Colombia: Pruebas Icfes Saber 11, 2009 (academic performance determinants in Colombia: Icfes Saber 11, 2009 exam). Center for Research in Economics and Finance (CIEF), Working Papers(11-5).spa
dc.relation.referencesChiok, C. H. M. (2017). Predicción del rendimiento académico aplicando técnicas de minería de datos. En Anales científicos (Vol. 78, pp. 26–33).spa
dc.relation.referencesDiamond, J. (2021). The influence of cultural and social conditions on student academic performance. Journal of Education, 55 (3), 123-134.spa
dc.relation.referencesFerreira, F. H., Gignoux, J., y Aran, M. (2011). Measuring inequality of opportunity with imperfect data: the case of turkey. The Journal of Economic Inequality, 9 (4), 651–680. Firke, S., Bengtsson, J., Hill, S., y Wickham, H. (2021). janitor: Simple tools for examining and cleaning dirty data [Manual de software informático]. Descargado de https:// CRAN.R-project.org/package=janitor (R package version 2.1.0)spa
dc.relation.referencesFlórez, C., Espinosa, F., Sánchez, L., y Angulo, R. (2008). Diseño del índice Sisbén en su tercera versión. Bogotá, Colombia. https://www. sisben. gov. co/Portals/0/Documentos/Documentos Técnicos/02. Resumen Ejecutivo Sisb.spa
dc.relation.referencesGiordani, P., Ferraro, M. B., Martella, F., Giordani, P., Ferraro, M. B., y Martella, F. (2020). Introduction to clustering. Springer.spa
dc.relation.referencesGrizzle, S.-C. F. y. K. G. G., J. E. (1969). Analysis of categorical data by linear models biometrics. , 25 (Nov), 489–504.spa
dc.relation.referencesGuarín, A., Medina, C., y Posso, C. (2018). Calidad, cobertura y costos ocultos de la educación.spa
dc.relation.referencesGuo, . F.-M. W., S. (2010). Propensity score analysis: Statistical methods and applications (Vol. 1).spa
dc.relation.referencesHo, I.-K. K. G. . S. E. A., D. E. (2007). Matching as nonparametric preprocessing for reducing model dependence in parametric causal inference (Vol. 3).spa
dc.relation.referencesICFES. (2019). Instituto colombiano para la evaluación de la educación - Icfes. (2021). boletín saber al detalle (edición 4).spa
dc.relation.referencesKassambara, A. (2017). Practical guide to cluster analysis in r (Vol. 1). Createspace.spa
dc.relation.referencesKoh, T. G., Hian. (2005). Data mining applications in healthcare. Journal of healthcare information management(19), 64–72.spa
dc.relation.referencesKuhn, M., Wickham, H., y RStudio. (2021). tidymodels: Easily install and load the ’tidymodels’ packages [Manual de software inform´atico]. Descargado de https:// www.tidymodels.org/ (R package version 0.1.4)spa
dc.relation.referencesLópez, Á., Virgüez, A., Silva, C., y Sarmiento, J. (2017). Desigualdad de oportunidades en el sistema de educación pública en Bogotá, Colombia. Lecturas de Economía (87), 165–190.spa
dc.relation.referencesMaaten, L. v. d., y Hinton, G. (2008). Visualizing data using t-sne. Journal of machine learning research, 9 (Nov), 2579–2605.spa
dc.relation.referencesMacQueen, J. (1967). Some methods for classification and analysis of multivariate ob- servations. En L. M. Le Cam y J. Neyman (Eds.), Proceedings of the fifth berkeley symposium on mathematical statistics and probability (Vol. 1, pp. 281–297). Berkeley, CA: University of California Press.spa
dc.relation.referencesManrique, I. J. A., y Carreño, C. A. A. (2014). Influencia de los padres en el rendimiento académico de los hijos: una aproximación econométrica en el contexto de la educación media colombiana. Educación y Desarrollo Social , 8 (2), 184–199.spa
dc.relation.referencesMarqués, I. (2016). Apuntes sobre el informe Coleman sobre la difícil convivencia de los principios igualitarios en un mundo desigual. International Journal of Sociology of Education, 5 (2), 107–126.spa
dc.relation.referencesMonroy, L. G. D., Rivera, M. A. M., y Dávila, L. R. L. (2018). Análisis estadístico de datos categóricos. Universidad Nacional de Colombiaspa
dc.relation.referencesMurillo, F. J., y Carrillo-Luna, S. (2021). Segregación escolar por nivel socioeconómico en Colombia y sus departamentos. Magis, Revista Internacional de Investigación en Educación, 14 , 1–23.spa
dc.relation.referencesNuñez, R. B., Zambrano, M. Q., Alarcón, M. S., Monar, L. V., y Cisneros, J. C. (2017). Alimentación saludable como factor influyente en el rendimiento escolar de los estudiantes de instituciones educativas en ecuador. FACSALUD-UNEMI , 1 (1), 34–39.spa
dc.relation.referencesPadilla-Escorcia, I. A., González-Tinoco, N. E., y Fernández-Díaz, O. R. (2022). Modelo estadístico para estimar la influencia de la lectura crítica en las competencias evaluadas en las pruebas saber 11°. Trilogía Ciencia Tecnología Sociedad , 14 (26).spa
dc.relation.referencesPardo, C. E. (2020). Estadística descriptiva multivariada.spa
dc.relation.referencesP´erez-Pulido, M. O., Aguilar-Galvis, F., Orlandoni-Merli, G., Ramoni-Perazzi, J., y cols. (2016). Análisis estadístico de los resultados de las pruebas de estado para el ingreso a la educación superior en la universidad de Santander, Colombia-statistical analysis of the results of state tests for admission to higher education at the university of Santander, Colombia. Revista científica, 4 (27), 328–339.spa
dc.relation.referencesPi˜nero, J. C. M., S´anchez, M. C. C., Bernal, I. A. M., y Jerez, S. A. R. (2019). Incidencia de las tic en el mejoramiento de las pruebas saber 11: un análisis a partir del modelo tpack. Encuentro Internacional de Educación en Ingeniería.spa
dc.relation.referencesRamoni Perazzi, J., Orlandoni Merli, G., Pérez Pulido, M. O., y Aguilar Galvis, F. (2016). Análisis estadístico de los resultados de las prueba de estado para el ingreso a la educación superior en la universidad de Santander, Colombia. Revista Científica.spa
dc.relation.referencesRhys, H. (2020). Machine learning with r, the tidyverse, and mlr (Vol. 1). Shelter Island.spa
dc.relation.referencesRodríguez, D. F. M. (2016). Algunos factores que influyen en los resultados de las pruebas estandarizadas y censales. Boletín Redipe, 5 (3), 136–145.spa
dc.relation.referencesRíos-Cuesta, W. (2023). Desempeño histórico en la prueba saber de matemáticas: la necesidad de revisar la política educativa del chocó. Encuentros, 21 (01), 30–39.spa
dc.relation.referencesSamper, J. D. Z. (2021). La inteligencia y el talento se desarrollan (Vol. 1). Magisterio.spa
dc.relation.referencesSánchez, G. D. D. (2020). La evaluación desde las pruebas estandarizadas en la educación en Latinoamérica. Revista En-Contexto, 8 (13), 107–133.spa
dc.relation.referencesSánchez, A. (2011). Etnia y rendimiento académico en Colombia. , 14 (Dic), 189–227.spa
dc.relation.referencesToranzos, L. (1996). Evaluación y calidad. Revista iberoamericana de educación, 10 .spa
dc.relation.referencesTorrecilla, F. J. M. (2008). Los modelos multinivel como herramienta para la investigación educativa. Magis. Revista Internacional de Investigación en Educación, 1 (1), 45–62.spa
dc.relation.referencesVillacís Mejía, J. E. (2020). Estado nutricional antropométrico, nivel socioeconómico y rendimiento académico en niños escolares de 6 a 12 años las islas Galápagos, ecuador 2019.spa
dc.relation.referencesWaring, D., y Chang, E. (2021). skimr: Compact and flexible summaries of data [Manual de software inform´atico]. Descargado de https://cran.r-project.org/package=skimr (R package version 2.1.3)spa
dc.relation.referencesWickham, H. (2016). ggplot2: Elegant graphics for data analysis [Manual de software inform´atico]. Descargado de https://cran.r-project.org/web/packages/ggplot2/ index.html (R package version 3.3.0)spa
dc.relation.referencesWickham, H., y Bryan, J. (2021). tidyverse: Easily install and load the ’tidyverse’ [Manual de software informático]. Descargado de https://tidyverse.org/ (R package versión 1.3.1)spa
dc.relation.referencesWickham, H., Bryan, J., y M¨uller, K. (2021). readxl: Read excel files [Manual de software informático]. Descargado de https://readxl.tidyverse.org/ (R package versión 1.3.1)spa
dc.relation.referencesZuluaga, K. J. H., y Morales, J. C. C. (2018). Regresión logística bivariable para tablas de contingencia usando metodología gsk. Comunicaciones en Estadística, 11 (2), 153–170.spa
dc.relation.referencesAlcaldía de Caucasia. (2019). Plan de desarrollo municipal Caucasia 2020. Descargado de https://www.caucasia-antioquia.gov.co/inicio/index.shtmlspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacionalspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/spa
dc.subject.ddc510 - Matemáticas::519 - Probabilidades y matemáticas aplicadasspa
dc.subject.ddc370 - Educaciónspa
dc.subject.lembMinería de datos
dc.subject.lembMediciones y pruebas educativas - Colombia
dc.subject.lembCalidad de la educación
dc.subject.lembAnálisis cluster
dc.subject.proposalPruebas Saber 11spa
dc.subject.proposalPruebas estandarizadasspa
dc.subject.proposalCalidad educativaspa
dc.subject.proposalNivel educativospa
dc.subject.proposalClústerspa
dc.subject.proposalStandardized testseng
dc.subject.proposalEducational qualityeng
dc.subject.proposalEducational leveleng
dc.subject.proposalClustereng
dc.titleTécnicas de minería de datos para el análisis de pruebas SABER
dc.title.translatedData mining techniques for the analysis of SABER evidenceeng
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
dcterms.audience.professionaldevelopmentEstudiantesspa
dcterms.audience.professionaldevelopmentMaestrosspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
53105156.2023.pdf
Tamaño:
4.95 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis de Magíster en Ciencias – Estadística

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
5.74 KB
Formato:
Item-specific license agreed upon to submission
Descripción: