Evaluación de modelos de Machine Learning para la predicción de crímenes en la ciudad de Medellín

dc.contributor.advisorVallejo Velásquez, Mónica Ayde
dc.contributor.advisorAedo Cobo, José Edinson
dc.contributor.authorMuñoz Jaramillo, Victor Daniel
dc.date.accessioned2022-02-14T16:58:20Z
dc.date.available2022-02-14T16:58:20Z
dc.date.issued2021
dc.descriptionilustraciones, gráficas, tablasspa
dc.description.abstractLa seguridad ciudadana se ha convertido en una de las principales preocupaciones de los gobiernos dada su relación directa con la calidad de vida de las personas, el crecimientos económico y el desarrollo de las regiones. Por su parte, el crimen se ha constituido como uno de los principales factores que afecta la seguridad, y para combatirlo, los gobiernos han asignado una cantidad de recursos que se podrían utilizar para proyectos de inversión como los de infraestructura. Históricamente el enforque de las estrategias de las autoridades locales se ha centrado en respuestas reactivas como la captura de los delincuentes, no obstante, recientemente se ha reconocido la necesidad de desarrollar estrategias preventivas de vigilancia y control de los espacios públicos, mediante el uso de tecnologías de aprendizaje automático (Machine Learning). Por esta razón, con el fin de colaborar con las estrategias de las autoridades para la gestión de los recursos, en esta tesis de maestría se realiza la evaluación de tres modelos de Machine Learning para la predicción del crimen en la ciudad de Medellín: un clasificador de bosques aleatorios, un modelo de regresión logística y una máquina de vectores de soporte (SVM, de sus siglas en inglés support vector machine). La metodología implementada integra el resultado de estudios anteriores con el proceso estándar de la industria para la minería de datos (CRISP-DM, de sus siglas en inglés Cross Industry Standard Process for Data Mining) como una estrategia general de resolución de problemas de la unidad de estudio. Como parte de la metodología, inicialmente se realiza un entendimiento y descripción de diferentes fuentes de información disponibles en la ciudad de Medellín. Luego, a partir de la identificación de los datos, su preparación y análisis, se formulan los modelos para la predicción de zonas calientes con información histórica del número de incidentes e información de la tasa de desempleo en la ciudad. Específicamente los modelos se construyen para la predicción del hurto a personas en las modalidades de atraco, descuido, cosquilleo y raponazo. Finalmente, el desempeño de los tres modelos se compara contra un modelo basado en reglas, y se evalúan en términos de la exactitud, exhaustividad/sensibilidad (recall), precisión y el valor F1. (Texto tomado de la fuente)spa
dc.description.abstractPublic safety is one of the main concerns of governments, given its direct relationship with people’s wellbeing, economic growth, and the development of the regions. For its part, crime has been detected as one of the main factors that affect the feeling of security, assigning it a considerable percentage of government resources to combat it. Historically, national authorities’ strategies have focused on reactive responses such as the capture of criminals, however, the need to develop preventive strategies for surveillance and control of public spaces has been recently recognized. For this reason, in order to improve the strategies currently used by the authorities for resource management, this master’s thesis evaluates three Machine Learning Models: a random forest classifier, a logistic regression model, and a support vector machine (SVM), for the prediction of crime in the city of Medellin. The proposed methodology integrates previous studies that have been conducted in other regions with the Cross Industry Standard Process for Data Mining (CRISP-DM) as a general strategy for problem solving of the unit of study. As part of the methodology, it begins with the understanding and description of the available information in the city of Medellin. Then, from the identification of the data, its preparation, and analysis, the Machine Learning models are formulated for the prediction of crime hotspots, using the information about historical incidents and the unemployment rate. Finally, the performance of the 3 models is evaluated in terms of accuracy, recall, precision, and F1 score, and each of the models is compared with the result obtained by using a base model built on rules that the authorities could establish.eng
dc.description.curricularareaÁrea Curricular de Ingeniería de Sistemas e Informáticaspa
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagíster en Ingeniería - Analíticaspa
dc.format.extentxiii, 68 páginasspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.instnameUniversidad Nacional de Colombiaspa
dc.identifier.reponameRepositorio Institucional Universidad Nacional de Colombiaspa
dc.identifier.repourlhttps://repositorio.unal.edu.co/spa
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/80976
dc.language.isospaspa
dc.publisherUniversidad Nacional de Colombiaspa
dc.publisher.branchUniversidad Nacional de Colombia - Sede Medellínspa
dc.publisher.departmentDepartamento de la Computación y la Decisiónspa
dc.publisher.facultyFacultad de Minasspa
dc.publisher.placeMedellín, Colombiaspa
dc.publisher.programMedellín - Minas - Maestría en Ingeniería - Analíticaspa
dc.relation.referencesMinisterio de Defensa Nacional - Dirección de Estudios Estratégicos, “Información de criminalidad, resultados operacionales y delitos contra las propias tropas.” [En línea] https://www.mindefensa.gov.co/irj/go/km/docs/Mindefensa/Documentos/descargas/estudios sectoriales/info estadistica/Avance Politica Defensa Seguridad.xlsx [Último acceso: 2021], Agosto 2021.spa
dc.relation.referencesP. Chapman, J. Clinton, R. Kerber, T. Khabaza, T. Reinartz, C. Shearer, and R. Wirth, CRISP-DM 1.0. SPSS Inc., 2000. Medellín cómo vamos, “Informe calidad de vida de Medellín, 2018.” [En línea] https://www.medellincomovamos.org/system/files/2020-04/docuprivados/Documento %20ICV %202018.pdf [Último acceso: 2021], 2019.spa
dc.relation.referencesMedellín cómo vamos, “Informe calidad de vida de medellín, 2020.” [En línea] https://www.medellincomovamos.org/system/files/2021-09/docuprivados/Documento %20Informe %20de %20Calidad %20de %20Vida %20de %20Medell %C3 %ADn %202020.pdf [Último acceso: 2021], 2021.spa
dc.relation.referencesD. Yang, T. Heaney, A. Tonon, and L. Wang, “Crimetelescope: crime hotspot prediction based on urban and social media data fusion,” World Wide Web, vol. 21(5), pp. 1323–1347, 2017.spa
dc.relation.referencesM. W. Yu, C.and Ward, M. Morabito, and W. Ding, “Crime forecasting using data mining techniques,” 2011 IEEE 11th International Conference on Data Mining Workshops, 2011.spa
dc.relation.referencesY. Zhuang, M. Almedida, M. Morabito, and W. Ding, “Crime hot spot forecasting: A recurrent model with spatial and temporal information,” 2017 IEEE International Conference on Big Knowledge (ICBK), pp. 143–150, 2017.spa
dc.relation.referencesA. Araujo, N. Cacho, L. Bezerra, C. Vieira, and J. Borges, “Towards a crime hotspot detection framework for patrol planning,” 2018 IEEE 20th International Conference on High Performance Computing and Communications, 2018.spa
dc.relation.referencesA. Rummens, W. Hardyns, and L. Pauwels, “The use of predictive analysis in spatio-temporal crime forecasting: Building and testing a model in an urban context,” Applied Geography, vol. 86, pp. 255–261, 2017.spa
dc.relation.referencesY. L. Lin, M. F. Yen, and L. C. Yu, “Grid-based crime prediction using geographical features,” ISPRS International Journal of Geo-Information, vol. 7, p. 298, 2018.spa
dc.relation.referencesJ. Borges, “Time-series features for predictive policing,” 2018 IEEE International Smart Cities Conference (ISC2), pp. 1–8, 2018.spa
dc.relation.referencesC. Kadar and I. Pletikosa, “Mining large-scale human mobility data for long-term crime prediction,” EPJ Data Sci, vol. 7, p. 26, 2018.spa
dc.relation.referencesS. K. Dash, I. Safro, and R. S. Srinivasamurthy, “Spatio-temporal prediction of crimes using network analytic approach,” 2018 IEEE International Conference on Big Data, 2018.spa
dc.relation.referencesG. L. Shoesmith, “Space–time autoregressive models and forecasting national, regional and state crime rates,” International Journal of Forecasting, volume=29, year=2013, pages=191–201, doi = 10.1016/j.ijforecast.2012.08 .spa
dc.relation.referencesO. Kounadi, A. Araujo, and M. Leitner, “A systematic review on spatial crime forecasting,” Crime Sci, vol. 9, 2020.spa
dc.relation.referencesArias Sevilla, P., “Pirámide de maslow.” [En línea] https://economipedia.com/definiciones/piramide-de-maslow.html [Último acceso: 2021], 25 Febrero 2015.spa
dc.relation.referencesOECD, “Better life index, security.” [En línea] https://www.oecdbetterlifeindex.org/topics/safety/ [Último acceso: 2021].spa
dc.relation.referencesPNUD, “Sinpsis: Seguridad ciudadana.” [En línea] https://www1.undp.org/content/undp/es/home/ librarypage/crisis-prevention-and-recovery/IssueBriefCitizenSecurity.html [ ́Ultimo acceso: 2021], 15 Abril 2014.spa
dc.relation.referencesMinisterio de Defensa Nacional, “Marco de convivencia y seguridad ciudadana.” [En línea] https://www.mininterior.gov.co/sites/default/files/politica marco de convivencia y seguridad ciudadana.pdf [Último acceso: 2021], 2019.spa
dc.relation.referencesMinisterio de Salud y Protección Social Colombia, “Política nacional de salud mental - resolución 4886 de 2018.” [En línea] https://www.minsalud.gov.co/sites/rid/Lists/BibliotecaDigital/RIDE/VS/PP/politica-nacional-salud-mental.pdf [Último acceso: 2021], 2018.spa
dc.relation.referencesCongreso de la República, “Ley 599 de 2000 código penal colombiano.” [En línea] http://www.secretariasenado.gov.co/senado/basedoc/ley 0599 2000.html [Último acceso: 2021], 2000spa
dc.relation.referencesS. Quintero, “Citizen security and community participation in latin america,” Revista Científica General José María Córdoba, vol. 18, pp. 5–24, 2020.spa
dc.relation.referencesJ. Laufs and et al., “Security and the smart city: A systematic review,” Sustainable Cities and Society, vol. 55, 2020.spa
dc.relation.referencesA. Ramaprasad, A. Sanchez-Ortiz, and T. Syn, “A unified definition of a smart city,” International Conference on Electronic Government, 2017.spa
dc.relation.referencesR. W. Siegfried, “A unified definition of a smart city,” Cities, vol. 81, pp. 1–23, 2018.spa
dc.relation.referencesM. Bourmpos, A. Argyris, and D. Syvridis, “Smart city surveillance through low-cost fiber sensors in metropolitan optical networks.,” Fiber and Integrated Optics, vol. 33, pp. 205–223, 2014.spa
dc.relation.referencesAlcaldía de Medellín, “Sistema de información para la seguridad y convivencia - sisc.” [En línea] https://www.medellin.gov.co/irj/portal/medellin?NavigationTarget=contenido/8148-Sistema-de-Informacion-para-la-Seguridad-y-Convivencia—SISC [́Ultimo acceso: 2021], 2014.spa
dc.relation.referencesAlcaldía de Medellín, “Cámaras de cctv.” [En línea] https://www.medellin.gov.co/simm/camaras-de-circuito-cerrado [Último acceso: 2021], 2013.spa
dc.relation.referencesPolicía Nacional de Colombia, “Audiencia pública de rendición de cuentas 2019.” [En línea] https://www.policia.gov.co/sites/default/files/descargables/informe audiencia rendición de cuentas-vig-2019.pdf [Último acceso: 2021], 2020.spa
dc.relation.referencesPolicía Nacional de Colombia, “Tepillé.” [En línea] https://tepilleapp.com/ [Último acceso: 2021].spa
dc.relation.referencesReal Academia Española, “Delito.” [En línea] https://dle.rae.es/delito?m=form [Último acceso: 2021].spa
dc.relation.referencesReal Academia Española, “Crimen.” [En línea] https://dle.rae.es/crimen?m=form [Último acceso: 2021].spa
dc.relation.referencesReal Academia Española, “Hurto.” [En línea] https://dle.rae.es/hurto?m=form [Último acceso: 2021].spa
dc.relation.referencesReal Academia Española, “Robo.” [En línea] https://dle.rae.es/robo?m=form [Último acceso: 2021].spa
dc.relation.referencesPolicía de Puerto Rico, Manual de Información Uniforme de Datos del Crimen. 2006.spa
dc.relation.referencesDANE, “Encuesta de convivencia y seguridad ciudadana.” [En línea] http://microdatos.dane.gov.co/index.php/catalog/574/datafile/F20/V642 [Último acceso: 2021], 2013.spa
dc.relation.referencesC. M. Bishop, Pattern Recognition and Machine Learning. New York: Springer Science+Business Media, 2006.spa
dc.relation.referencesA. Samuel, “Some studies in machine learning using the game of checkers,” IBM Journal of Research and Development, vol. 3, pp. 210–229, 1959.spa
dc.relation.referencesA. Geron, Hands-on Machine Learning with Scikit-Learn, Keras, and Tensorflow - Concepts, Tools, and Techniques to Build Intelligent Systems. Sebastopol: O’Reilly, 2019.spa
dc.relation.referencesT. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York: Springer, 2 ed., 2003.spa
dc.relation.referencesC. J. C. Burges, “A tutorial on support vector machines for pattern recognition,” Data Mining and Knowledge Discovery, vol. 2, pp. 121–167, 1998.spa
dc.relation.referencesFAYRIX, “Selección de métricas para aprendizaje automático.” [En línea] https://fayrix.com/machine-learning-metrics es [Último acceso: 2021].spa
dc.relation.referencesP. Gupta and N. K. Sehgal, Introduction to Machine Learning in the Cloude with Python: Concepts and Practice. Cham, Switzerland: Springer International Publishing, 2021.spa
dc.relation.referencesZ. Somogyi, The Application of Artificial Intelligence: Step-by-Step Guide from Beginner to Expert. Cham, Switzerland: Springer, 2021.spa
dc.relation.referencesJ. Browniee, “Train-test split for evaluating machine learning algorithms.” [En línea] https://machinelearningmastery.com/train-test-split-for-evaluating-machine-learning-algorithms/ [Último acceso: 2021], 24 Julio 2020.spa
dc.relation.referencesJ. Browniee, Machine Learning Algorithms from Scratch: with Python. Machine Learning Mastery, 2016.spa
dc.relation.referencesJ. Browniee, “A gentle introduction to k-fold cross-validation.” [En línea] https://machinelearningmastery.com/k-fold-cross-validation/ [Último acceso: 2021], 23 Mayo 2018.spa
dc.relation.referencesJ. Browniee, “Nested cross-validation for machine learning with python.” [En línea] https://machinelearningmastery.com/nested-cross-validation-for-machine-learning-with-python/ [Último acceso: 2021], 29 Julio 2020.spa
dc.relation.referencesS. Raschka and V. Mirjalili, Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2, 3rd Edition. Packt Publishing, 2019.spa
dc.relation.referencesT. Lin, Y. Xie, A. Wasilewska, and C. Liau, Data Mining: Foundations and Practice. Studies in Computational Intelligence, Springer Berlin Heidelberg, 2008.spa
dc.relation.referencesD. Larose, Data Mining and Predictive Analytics. Wiley Series on Methods and Applications in Data Mining, Wiley, 2015.spa
dc.relation.referencesD. Olson and D. Delen, Advanced Data Mining Techniques. Springer Berlin Heidelberg,2008.spa
dc.relation.referencesP. J. Brantingham and B. P. L, Patterns in Crime. New York: Macmillan, 1984.spa
dc.relation.referencesJ. Tiihinen, P. Halonen, L. Tiihonen, K. H., M. Storvik, and J. Callaway, “The association of ambient temperature and violent crime,” Sci Rep, 2017.spa
dc.relation.referencesP. Butke and S. Sherida, “An analysis of the relationship between weather and aggressive crime in cleveland, ohio,” Weather, Climate and Society, vol. 2, pp. 127–139, 2010.spa
dc.relation.referencesL. Alves, H. Ribeiro, and F. Rodrigues, “Crime prediction through urban metrics and statistical learning,” Physica A: Statistical Mechanisc and its Applications, vol. 505, pp. 435–443, 2018.spa
dc.relation.referencesM. Andresen and N. Malleson, “Intra-week spatial-temporal patterns of crime,” Crime Sci, vol. 3, 2015.spa
dc.relation.referencesM. Williams, P. Burnap, and L. Sloan, “Crime sensing with big data: The affordances and limitations of using open-source communications to estimate crime patters,” The British Journal of Criminology, vol. 57, pp. 320–340, 2017.spa
dc.relation.referencesA. A. Biswas and S. Basak, “Forecasting the trends and patterns of crime in bangladesh using machine learning model,” in 2nd International Conference on Intelligent Comunication and Computational Techniques (ICCT), 2019.spa
dc.relation.referencesA. Bogomolov, B. Lepri, J. Staiano, F. Oliver, N. Pianesi, and A. Pentland, “Once upon a crime: Towards crime prediction from demographics and mobile data,” in Poceedings of the 16th International Conference on Multimodal Interaction ICMI.spa
dc.relation.referencesA. A. Junior, N. Cacho, A. C. Thome, A. Medeiros, and J. Borges, “A predictive policing application to support patrol planning in smart cities,” in International Smart Cities Conference (ISC2), 2017.spa
dc.relation.referencesSecretaria de Seguridad de Bogotá, “Secretaría seguridad Bogotá - diseño y validación de modelos de analítica predictiva de fenómenos de seguridad y convivencia para la toma de decisiones en Bogotá.” [En línea] https://www.facebook.com/secretariadeseguridadbogota/videos/2683121515289433/?t=8. [Último acceso: 2021], 2020.spa
dc.relation.referencesAlcaldía de Medellín, “Epm desarrolla el sistema de información para análisis de entorno consumiendo datos públicos del portal medata.” [En línea] http://medata.gov.co/historia/epm-desarrolla-el-sistema-de-informaci ́on-para-análisis-de-entorno-consumiendo-datos. [Último acceso: 2021], 2018.spa
dc.relation.referencesV. Munoz, M. Vallejo, and J. E. Aedo, “Machine learning models for predicting crime hotspots in medellin city,” in 2021 2nd Sustainable Cities Latin America Conference (SCLA), 2021.spa
dc.relation.referencesSecretaría de Seguridad y convivencia - Sistema de Información para la Seguridad y la Convivencia SISC, “Hurto a persona.” [En línea] http://medata.gov.co/dataset/hurto-persona [Último acceso: 2021], 2020.spa
dc.relation.referencesPydata, “pandas.” [En línea] https://pandas.pydata.org/ [Último acceso: 2021].spa
dc.relation.referencesAlcaldía de Medellín, “Límite catastral de comunas y corregimientos.” [En línea] https://geomedellin-m-medellin.opendata.arcgis.com/datasets/283d1d14584641c9971edbd2f695e502 6 [Último acceso: 2021].spa
dc.relation.referencesDepartamento Administrativo Nacional de Estadísticas, “Información histórica del mercado laboral.” [En línea] https://www.dane.gov.co/index.php/estadisticas-por-tema/mercado-laboral/empleo-y-desempleo/mercado-laboral-historicos [Último acceso: 2021], 2021.spa
dc.relation.referencesSIATA, “Generalidades de la información red meteorológica y pluviométrica del valle de Aburrá.” [En línea] https://siata.gov.co/descargasiata/index.php/info/pluviomet/ [Último acceso: 2021].spa
dc.relation.referencesÁrea Metropolitana del Valle de Aburrá, “Preparémonos para el inicio de la primera temporada de lluvias de 2019.” [En línea] https://www.metropol.gov.co/Paginas/Noticias/preparemonos-para-el-inicio-de-la-primera-temporada-de-lluvias-de-2019.aspx [ ́Ultimo acceso: 2021], 2019.spa
dc.relation.referencesD. Wang, W. Ding, H. Lo, T. Stepinski, J. Salazar, and M. Morabito, “Crime hotspot mapping using the crime related factors—a spatial data mining approach,” Applied Intelligence, vol. 39(4), p. 772–781, 2012.spa
dc.relation.referencesV. Munoz, M. Vallejo, and J. E. Aedo, “Exploratory analysis of crime behavior in the city of medellin,” in 2021 2nd Sustainable Cities Latin America Conference (SCLA), 2021.spa
dc.relation.referencesJ. Browniee, “A gentle introduction to imbalanced classification.” [En línea] https://machinelearningmastery.com/what-is-imbalanced-classification/ [ ́Ultimo acceso: 2021], 23 Diciembre 2019.spa
dc.relation.referencesScikit-Learn, “Logistic regression classifier.” [En l ́ınea] https://scikit-learn.org/stable/modules/generated/sklearn.linearmodel.LogisticRegression.html [Último acceso: 2021].spa
dc.relation.referencesScikit-Learn, “Random forest classifie.” [En línea] https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html [Último acceso: 2021].spa
dc.relation.referencesScikit-Learn, “C-support vector classification.” [En línea] https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html [Último acceso: 2021spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.licenseReconocimiento 4.0 Internacionalspa
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/spa
dc.subject.armarcSocial problems - Medellín (Colombia)
dc.subject.ddc000 - Ciencias de la computación, información y obras generalesspa
dc.subject.ddc300 - Ciencias sociales::304 - Factores que afectan el comportamiento socialspa
dc.subject.lembCrimen - Medellín (Colombia)
dc.subject.lembProblemas sociales - Medellín (Colombia)
dc.subject.lembSeguridad ciudadana
dc.subject.lembAprendizaje automático (Inteligencia artificial)
dc.subject.proposalPredicción del crimenspa
dc.subject.proposalZonas calientesspa
dc.subject.proposalMachine learningeng
dc.subject.proposalModelos predictivosspa
dc.subject.proposalPredicción de crimen en Medellínspa
dc.subject.proposalCrime predictioneng
dc.subject.proposalHotspot predictioneng
dc.subject.proposalPredictive modelseng
dc.subject.proposal, Crime prediction in Medellineng
dc.subject.proposalPublic safetyeng
dc.titleEvaluación de modelos de Machine Learning para la predicción de crímenes en la ciudad de Medellínspa
dc.title.translatedMachine Learning models for crime prediction in Medellin cityeng
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
dcterms.audience.professionaldevelopmentEstudiantesspa
dcterms.audience.professionaldevelopmentInvestigadoresspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
1037649240.2021.pdf
Tamaño:
4.15 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis de Maestría en Ingeniería - Analítica

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
3.98 KB
Formato:
Item-specific license agreed upon to submission
Descripción: