Evaluación de modelos de Machine Learning para la predicción de crímenes en la ciudad de Medellín
dc.contributor.advisor | Vallejo Velásquez, Mónica Ayde | |
dc.contributor.advisor | Aedo Cobo, José Edinson | |
dc.contributor.author | Muñoz Jaramillo, Victor Daniel | |
dc.date.accessioned | 2022-02-14T16:58:20Z | |
dc.date.available | 2022-02-14T16:58:20Z | |
dc.date.issued | 2021 | |
dc.description | ilustraciones, gráficas, tablas | spa |
dc.description.abstract | La seguridad ciudadana se ha convertido en una de las principales preocupaciones de los gobiernos dada su relación directa con la calidad de vida de las personas, el crecimientos económico y el desarrollo de las regiones. Por su parte, el crimen se ha constituido como uno de los principales factores que afecta la seguridad, y para combatirlo, los gobiernos han asignado una cantidad de recursos que se podrían utilizar para proyectos de inversión como los de infraestructura. Históricamente el enforque de las estrategias de las autoridades locales se ha centrado en respuestas reactivas como la captura de los delincuentes, no obstante, recientemente se ha reconocido la necesidad de desarrollar estrategias preventivas de vigilancia y control de los espacios públicos, mediante el uso de tecnologías de aprendizaje automático (Machine Learning). Por esta razón, con el fin de colaborar con las estrategias de las autoridades para la gestión de los recursos, en esta tesis de maestría se realiza la evaluación de tres modelos de Machine Learning para la predicción del crimen en la ciudad de Medellín: un clasificador de bosques aleatorios, un modelo de regresión logística y una máquina de vectores de soporte (SVM, de sus siglas en inglés support vector machine). La metodología implementada integra el resultado de estudios anteriores con el proceso estándar de la industria para la minería de datos (CRISP-DM, de sus siglas en inglés Cross Industry Standard Process for Data Mining) como una estrategia general de resolución de problemas de la unidad de estudio. Como parte de la metodología, inicialmente se realiza un entendimiento y descripción de diferentes fuentes de información disponibles en la ciudad de Medellín. Luego, a partir de la identificación de los datos, su preparación y análisis, se formulan los modelos para la predicción de zonas calientes con información histórica del número de incidentes e información de la tasa de desempleo en la ciudad. Específicamente los modelos se construyen para la predicción del hurto a personas en las modalidades de atraco, descuido, cosquilleo y raponazo. Finalmente, el desempeño de los tres modelos se compara contra un modelo basado en reglas, y se evalúan en términos de la exactitud, exhaustividad/sensibilidad (recall), precisión y el valor F1. (Texto tomado de la fuente) | spa |
dc.description.abstract | Public safety is one of the main concerns of governments, given its direct relationship with people’s wellbeing, economic growth, and the development of the regions. For its part, crime has been detected as one of the main factors that affect the feeling of security, assigning it a considerable percentage of government resources to combat it. Historically, national authorities’ strategies have focused on reactive responses such as the capture of criminals, however, the need to develop preventive strategies for surveillance and control of public spaces has been recently recognized. For this reason, in order to improve the strategies currently used by the authorities for resource management, this master’s thesis evaluates three Machine Learning Models: a random forest classifier, a logistic regression model, and a support vector machine (SVM), for the prediction of crime in the city of Medellin. The proposed methodology integrates previous studies that have been conducted in other regions with the Cross Industry Standard Process for Data Mining (CRISP-DM) as a general strategy for problem solving of the unit of study. As part of the methodology, it begins with the understanding and description of the available information in the city of Medellin. Then, from the identification of the data, its preparation, and analysis, the Machine Learning models are formulated for the prediction of crime hotspots, using the information about historical incidents and the unemployment rate. Finally, the performance of the 3 models is evaluated in terms of accuracy, recall, precision, and F1 score, and each of the models is compared with the result obtained by using a base model built on rules that the authorities could establish. | eng |
dc.description.curriculararea | Área Curricular de Ingeniería de Sistemas e Informática | spa |
dc.description.degreelevel | Maestría | spa |
dc.description.degreename | Magíster en Ingeniería - Analítica | spa |
dc.format.extent | xiii, 68 páginas | spa |
dc.format.mimetype | application/pdf | spa |
dc.identifier.instname | Universidad Nacional de Colombia | spa |
dc.identifier.reponame | Repositorio Institucional Universidad Nacional de Colombia | spa |
dc.identifier.repourl | https://repositorio.unal.edu.co/ | spa |
dc.identifier.uri | https://repositorio.unal.edu.co/handle/unal/80976 | |
dc.language.iso | spa | spa |
dc.publisher | Universidad Nacional de Colombia | spa |
dc.publisher.branch | Universidad Nacional de Colombia - Sede Medellín | spa |
dc.publisher.department | Departamento de la Computación y la Decisión | spa |
dc.publisher.faculty | Facultad de Minas | spa |
dc.publisher.place | Medellín, Colombia | spa |
dc.publisher.program | Medellín - Minas - Maestría en Ingeniería - Analítica | spa |
dc.relation.references | Ministerio de Defensa Nacional - Dirección de Estudios Estratégicos, “Información de criminalidad, resultados operacionales y delitos contra las propias tropas.” [En línea] https://www.mindefensa.gov.co/irj/go/km/docs/Mindefensa/Documentos/descargas/estudios sectoriales/info estadistica/Avance Politica Defensa Seguridad.xlsx [Último acceso: 2021], Agosto 2021. | spa |
dc.relation.references | P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T. Reinartz, C. Shearer, and R. Wirth, CRISP-DM 1.0. SPSS Inc., 2000. Medellín cómo vamos, “Informe calidad de vida de Medellín, 2018.” [En línea] https://www.medellincomovamos.org/system/files/2020-04/docuprivados/Documento %20ICV %202018.pdf [Último acceso: 2021], 2019. | spa |
dc.relation.references | Medellín cómo vamos, “Informe calidad de vida de medellín, 2020.” [En línea] https://www.medellincomovamos.org/system/files/2021-09/docuprivados/Documento %20Informe %20de %20Calidad %20de %20Vida %20de %20Medell %C3 %ADn %202020.pdf [Último acceso: 2021], 2021. | spa |
dc.relation.references | D. Yang, T. Heaney, A. Tonon, and L. Wang, “Crimetelescope: crime hotspot prediction based on urban and social media data fusion,” World Wide Web, vol. 21(5), pp. 1323–1347, 2017. | spa |
dc.relation.references | M. W. Yu, C.and Ward, M. Morabito, and W. Ding, “Crime forecasting using data mining techniques,” 2011 IEEE 11th International Conference on Data Mining Workshops, 2011. | spa |
dc.relation.references | Y. Zhuang, M. Almedida, M. Morabito, and W. Ding, “Crime hot spot forecasting: A recurrent model with spatial and temporal information,” 2017 IEEE International Conference on Big Knowledge (ICBK), pp. 143–150, 2017. | spa |
dc.relation.references | A. Araujo, N. Cacho, L. Bezerra, C. Vieira, and J. Borges, “Towards a crime hotspot detection framework for patrol planning,” 2018 IEEE 20th International Conference on High Performance Computing and Communications, 2018. | spa |
dc.relation.references | A. Rummens, W. Hardyns, and L. Pauwels, “The use of predictive analysis in spatio-temporal crime forecasting: Building and testing a model in an urban context,” Applied Geography, vol. 86, pp. 255–261, 2017. | spa |
dc.relation.references | Y. L. Lin, M. F. Yen, and L. C. Yu, “Grid-based crime prediction using geographical features,” ISPRS International Journal of Geo-Information, vol. 7, p. 298, 2018. | spa |
dc.relation.references | J. Borges, “Time-series features for predictive policing,” 2018 IEEE International Smart Cities Conference (ISC2), pp. 1–8, 2018. | spa |
dc.relation.references | C. Kadar and I. Pletikosa, “Mining large-scale human mobility data for long-term crime prediction,” EPJ Data Sci, vol. 7, p. 26, 2018. | spa |
dc.relation.references | S. K. Dash, I. Safro, and R. S. Srinivasamurthy, “Spatio-temporal prediction of crimes using network analytic approach,” 2018 IEEE International Conference on Big Data, 2018. | spa |
dc.relation.references | G. L. Shoesmith, “Space–time autoregressive models and forecasting national, regional and state crime rates,” International Journal of Forecasting, volume=29, year=2013, pages=191–201, doi = 10.1016/j.ijforecast.2012.08 . | spa |
dc.relation.references | O. Kounadi, A. Araujo, and M. Leitner, “A systematic review on spatial crime forecasting,” Crime Sci, vol. 9, 2020. | spa |
dc.relation.references | Arias Sevilla, P., “Pirámide de maslow.” [En línea] https://economipedia.com/definiciones/piramide-de-maslow.html [Último acceso: 2021], 25 Febrero 2015. | spa |
dc.relation.references | OECD, “Better life index, security.” [En línea] https://www.oecdbetterlifeindex.org/topics/safety/ [Último acceso: 2021]. | spa |
dc.relation.references | PNUD, “Sinpsis: Seguridad ciudadana.” [En línea] https://www1.undp.org/content/undp/es/home/ librarypage/crisis-prevention-and-recovery/IssueBriefCitizenSecurity.html [ ́Ultimo acceso: 2021], 15 Abril 2014. | spa |
dc.relation.references | Ministerio de Defensa Nacional, “Marco de convivencia y seguridad ciudadana.” [En línea] https://www.mininterior.gov.co/sites/default/files/politica marco de convivencia y seguridad ciudadana.pdf [Último acceso: 2021], 2019. | spa |
dc.relation.references | Ministerio de Salud y Protección Social Colombia, “Política nacional de salud mental - resolución 4886 de 2018.” [En línea] https://www.minsalud.gov.co/sites/rid/Lists/BibliotecaDigital/RIDE/VS/PP/politica-nacional-salud-mental.pdf [Último acceso: 2021], 2018. | spa |
dc.relation.references | Congreso de la República, “Ley 599 de 2000 código penal colombiano.” [En línea] http://www.secretariasenado.gov.co/senado/basedoc/ley 0599 2000.html [Último acceso: 2021], 2000 | spa |
dc.relation.references | S. Quintero, “Citizen security and community participation in latin america,” Revista Científica General José María Córdoba, vol. 18, pp. 5–24, 2020. | spa |
dc.relation.references | J. Laufs and et al., “Security and the smart city: A systematic review,” Sustainable Cities and Society, vol. 55, 2020. | spa |
dc.relation.references | A. Ramaprasad, A. Sanchez-Ortiz, and T. Syn, “A unified definition of a smart city,” International Conference on Electronic Government, 2017. | spa |
dc.relation.references | R. W. Siegfried, “A unified definition of a smart city,” Cities, vol. 81, pp. 1–23, 2018. | spa |
dc.relation.references | M. Bourmpos, A. Argyris, and D. Syvridis, “Smart city surveillance through low-cost fiber sensors in metropolitan optical networks.,” Fiber and Integrated Optics, vol. 33, pp. 205–223, 2014. | spa |
dc.relation.references | Alcaldía de Medellín, “Sistema de información para la seguridad y convivencia - sisc.” [En línea] https://www.medellin.gov.co/irj/portal/medellin?NavigationTarget=contenido/8148-Sistema-de-Informacion-para-la-Seguridad-y-Convivencia—SISC [́Ultimo acceso: 2021], 2014. | spa |
dc.relation.references | Alcaldía de Medellín, “Cámaras de cctv.” [En línea] https://www.medellin.gov.co/simm/camaras-de-circuito-cerrado [Último acceso: 2021], 2013. | spa |
dc.relation.references | Policía Nacional de Colombia, “Audiencia pública de rendición de cuentas 2019.” [En línea] https://www.policia.gov.co/sites/default/files/descargables/informe audiencia rendición de cuentas-vig-2019.pdf [Último acceso: 2021], 2020. | spa |
dc.relation.references | Policía Nacional de Colombia, “Tepillé.” [En línea] https://tepilleapp.com/ [Último acceso: 2021]. | spa |
dc.relation.references | Real Academia Española, “Delito.” [En línea] https://dle.rae.es/delito?m=form [Último acceso: 2021]. | spa |
dc.relation.references | Real Academia Española, “Crimen.” [En línea] https://dle.rae.es/crimen?m=form [Último acceso: 2021]. | spa |
dc.relation.references | Real Academia Española, “Hurto.” [En línea] https://dle.rae.es/hurto?m=form [Último acceso: 2021]. | spa |
dc.relation.references | Real Academia Española, “Robo.” [En línea] https://dle.rae.es/robo?m=form [Último acceso: 2021]. | spa |
dc.relation.references | Policía de Puerto Rico, Manual de Información Uniforme de Datos del Crimen. 2006. | spa |
dc.relation.references | DANE, “Encuesta de convivencia y seguridad ciudadana.” [En línea] http://microdatos.dane.gov.co/index.php/catalog/574/datafile/F20/V642 [Último acceso: 2021], 2013. | spa |
dc.relation.references | C. M. Bishop, Pattern Recognition and Machine Learning. New York: Springer Science+Business Media, 2006. | spa |
dc.relation.references | A. Samuel, “Some studies in machine learning using the game of checkers,” IBM Journal of Research and Development, vol. 3, pp. 210–229, 1959. | spa |
dc.relation.references | A. Geron, Hands-on Machine Learning with Scikit-Learn, Keras, and Tensorflow - Concepts, Tools, and Techniques to Build Intelligent Systems. Sebastopol: O’Reilly, 2019. | spa |
dc.relation.references | T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York: Springer, 2 ed., 2003. | spa |
dc.relation.references | C. J. C. Burges, “A tutorial on support vector machines for pattern recognition,” Data Mining and Knowledge Discovery, vol. 2, pp. 121–167, 1998. | spa |
dc.relation.references | FAYRIX, “Selección de métricas para aprendizaje automático.” [En línea] https://fayrix.com/machine-learning-metrics es [Último acceso: 2021]. | spa |
dc.relation.references | P. Gupta and N. K. Sehgal, Introduction to Machine Learning in the Cloude with Python: Concepts and Practice. Cham, Switzerland: Springer International Publishing, 2021. | spa |
dc.relation.references | Z. Somogyi, The Application of Artificial Intelligence: Step-by-Step Guide from Beginner to Expert. Cham, Switzerland: Springer, 2021. | spa |
dc.relation.references | J. Browniee, “Train-test split for evaluating machine learning algorithms.” [En línea] https://machinelearningmastery.com/train-test-split-for-evaluating-machine-learning-algorithms/ [Último acceso: 2021], 24 Julio 2020. | spa |
dc.relation.references | J. Browniee, Machine Learning Algorithms from Scratch: with Python. Machine Learning Mastery, 2016. | spa |
dc.relation.references | J. Browniee, “A gentle introduction to k-fold cross-validation.” [En línea] https://machinelearningmastery.com/k-fold-cross-validation/ [Último acceso: 2021], 23 Mayo 2018. | spa |
dc.relation.references | J. Browniee, “Nested cross-validation for machine learning with python.” [En línea] https://machinelearningmastery.com/nested-cross-validation-for-machine-learning-with-python/ [Último acceso: 2021], 29 Julio 2020. | spa |
dc.relation.references | S. Raschka and V. Mirjalili, Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2, 3rd Edition. Packt Publishing, 2019. | spa |
dc.relation.references | T. Lin, Y. Xie, A. Wasilewska, and C. Liau, Data Mining: Foundations and Practice. Studies in Computational Intelligence, Springer Berlin Heidelberg, 2008. | spa |
dc.relation.references | D. Larose, Data Mining and Predictive Analytics. Wiley Series on Methods and Applications in Data Mining, Wiley, 2015. | spa |
dc.relation.references | D. Olson and D. Delen, Advanced Data Mining Techniques. Springer Berlin Heidelberg,2008. | spa |
dc.relation.references | P. J. Brantingham and B. P. L, Patterns in Crime. New York: Macmillan, 1984. | spa |
dc.relation.references | J. Tiihinen, P. Halonen, L. Tiihonen, K. H., M. Storvik, and J. Callaway, “The association of ambient temperature and violent crime,” Sci Rep, 2017. | spa |
dc.relation.references | P. Butke and S. Sherida, “An analysis of the relationship between weather and aggressive crime in cleveland, ohio,” Weather, Climate and Society, vol. 2, pp. 127–139, 2010. | spa |
dc.relation.references | L. Alves, H. Ribeiro, and F. Rodrigues, “Crime prediction through urban metrics and statistical learning,” Physica A: Statistical Mechanisc and its Applications, vol. 505, pp. 435–443, 2018. | spa |
dc.relation.references | M. Andresen and N. Malleson, “Intra-week spatial-temporal patterns of crime,” Crime Sci, vol. 3, 2015. | spa |
dc.relation.references | M. Williams, P. Burnap, and L. Sloan, “Crime sensing with big data: The affordances and limitations of using open-source communications to estimate crime patters,” The British Journal of Criminology, vol. 57, pp. 320–340, 2017. | spa |
dc.relation.references | A. A. Biswas and S. Basak, “Forecasting the trends and patterns of crime in bangladesh using machine learning model,” in 2nd International Conference on Intelligent Comunication and Computational Techniques (ICCT), 2019. | spa |
dc.relation.references | A. Bogomolov, B. Lepri, J. Staiano, F. Oliver, N. Pianesi, and A. Pentland, “Once upon a crime: Towards crime prediction from demographics and mobile data,” in Poceedings of the 16th International Conference on Multimodal Interaction ICMI. | spa |
dc.relation.references | A. A. Junior, N. Cacho, A. C. Thome, A. Medeiros, and J. Borges, “A predictive policing application to support patrol planning in smart cities,” in International Smart Cities Conference (ISC2), 2017. | spa |
dc.relation.references | Secretaria de Seguridad de Bogotá, “Secretaría seguridad Bogotá - diseño y validación de modelos de analítica predictiva de fenómenos de seguridad y convivencia para la toma de decisiones en Bogotá.” [En línea] https://www.facebook.com/secretariadeseguridadbogota/videos/2683121515289433/?t=8. [Último acceso: 2021], 2020. | spa |
dc.relation.references | Alcaldía de Medellín, “Epm desarrolla el sistema de información para análisis de entorno consumiendo datos públicos del portal medata.” [En línea] http://medata.gov.co/historia/epm-desarrolla-el-sistema-de-informaci ́on-para-análisis-de-entorno-consumiendo-datos. [Último acceso: 2021], 2018. | spa |
dc.relation.references | V. Munoz, M. Vallejo, and J. E. Aedo, “Machine learning models for predicting crime hotspots in medellin city,” in 2021 2nd Sustainable Cities Latin America Conference (SCLA), 2021. | spa |
dc.relation.references | Secretaría de Seguridad y convivencia - Sistema de Información para la Seguridad y la Convivencia SISC, “Hurto a persona.” [En línea] http://medata.gov.co/dataset/hurto-persona [Último acceso: 2021], 2020. | spa |
dc.relation.references | Pydata, “pandas.” [En línea] https://pandas.pydata.org/ [Último acceso: 2021]. | spa |
dc.relation.references | Alcaldía de Medellín, “Límite catastral de comunas y corregimientos.” [En línea] https://geomedellin-m-medellin.opendata.arcgis.com/datasets/283d1d14584641c9971edbd2f695e502 6 [Último acceso: 2021]. | spa |
dc.relation.references | Departamento Administrativo Nacional de Estadísticas, “Información histórica del mercado laboral.” [En línea] https://www.dane.gov.co/index.php/estadisticas-por-tema/mercado-laboral/empleo-y-desempleo/mercado-laboral-historicos [Último acceso: 2021], 2021. | spa |
dc.relation.references | SIATA, “Generalidades de la información red meteorológica y pluviométrica del valle de Aburrá.” [En línea] https://siata.gov.co/descargasiata/index.php/info/pluviomet/ [Último acceso: 2021]. | spa |
dc.relation.references | Área Metropolitana del Valle de Aburrá, “Preparémonos para el inicio de la primera temporada de lluvias de 2019.” [En línea] https://www.metropol.gov.co/Paginas/Noticias/preparemonos-para-el-inicio-de-la-primera-temporada-de-lluvias-de-2019.aspx [ ́Ultimo acceso: 2021], 2019. | spa |
dc.relation.references | D. Wang, W. Ding, H. Lo, T. Stepinski, J. Salazar, and M. Morabito, “Crime hotspot mapping using the crime related factors—a spatial data mining approach,” Applied Intelligence, vol. 39(4), p. 772–781, 2012. | spa |
dc.relation.references | V. Munoz, M. Vallejo, and J. E. Aedo, “Exploratory analysis of crime behavior in the city of medellin,” in 2021 2nd Sustainable Cities Latin America Conference (SCLA), 2021. | spa |
dc.relation.references | J. Browniee, “A gentle introduction to imbalanced classification.” [En línea] https://machinelearningmastery.com/what-is-imbalanced-classification/ [ ́Ultimo acceso: 2021], 23 Diciembre 2019. | spa |
dc.relation.references | Scikit-Learn, “Logistic regression classifier.” [En l ́ınea] https://scikit-learn.org/stable/modules/generated/sklearn.linearmodel.LogisticRegression.html [Último acceso: 2021]. | spa |
dc.relation.references | Scikit-Learn, “Random forest classifie.” [En línea] https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html [Último acceso: 2021]. | spa |
dc.relation.references | Scikit-Learn, “C-support vector classification.” [En línea] https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html [Último acceso: 2021 | spa |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | spa |
dc.rights.license | Reconocimiento 4.0 Internacional | spa |
dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | spa |
dc.subject.armarc | Social problems - Medellín (Colombia) | |
dc.subject.ddc | 000 - Ciencias de la computación, información y obras generales | spa |
dc.subject.ddc | 300 - Ciencias sociales::304 - Factores que afectan el comportamiento social | spa |
dc.subject.lemb | Crimen - Medellín (Colombia) | |
dc.subject.lemb | Problemas sociales - Medellín (Colombia) | |
dc.subject.lemb | Seguridad ciudadana | |
dc.subject.lemb | Aprendizaje automático (Inteligencia artificial) | |
dc.subject.proposal | Predicción del crimen | spa |
dc.subject.proposal | Zonas calientes | spa |
dc.subject.proposal | Machine learning | eng |
dc.subject.proposal | Modelos predictivos | spa |
dc.subject.proposal | Predicción de crimen en Medellín | spa |
dc.subject.proposal | Crime prediction | eng |
dc.subject.proposal | Hotspot prediction | eng |
dc.subject.proposal | Predictive models | eng |
dc.subject.proposal | , Crime prediction in Medellin | eng |
dc.subject.proposal | Public safety | eng |
dc.title | Evaluación de modelos de Machine Learning para la predicción de crímenes en la ciudad de Medellín | spa |
dc.title.translated | Machine Learning models for crime prediction in Medellin city | eng |
dc.type | Trabajo de grado - Maestría | spa |
dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | spa |
dc.type.coarversion | http://purl.org/coar/version/c_ab4af688f83e57aa | spa |
dc.type.content | Text | spa |
dc.type.driver | info:eu-repo/semantics/masterThesis | spa |
dc.type.redcol | http://purl.org/redcol/resource_type/TM | spa |
dc.type.version | info:eu-repo/semantics/acceptedVersion | spa |
dcterms.audience.professionaldevelopment | Estudiantes | spa |
dcterms.audience.professionaldevelopment | Investigadores | spa |
oaire.accessrights | http://purl.org/coar/access_right/c_abf2 | spa |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- 1037649240.2021.pdf
- Tamaño:
- 4.15 MB
- Formato:
- Adobe Portable Document Format
- Descripción:
- Tesis de Maestría en Ingeniería - Analítica
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 3.98 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: