Analítica predictiva y desarrollo de un modelo cuantitativo para estudio y segmentación del mercado farmacéutico para patologías de alto costo

dc.contributor.advisorOlaya Morales, Yris
dc.contributor.authorTrillos Paredes, Jose Antonio
dc.contributor.orcidTrillos Paredes, Jose Antonio [0009-0007-6723-9867]spa
dc.date.accessioned2025-06-25T13:58:38Z
dc.date.available2025-06-25T13:58:38Z
dc.date.issued2025-06-23
dc.descriptionIlustraciones, gráficosspa
dc.description.abstractActualmente, Colombia enfrenta importantes retos en su sistema de salud, especialmente en la gestión eficiente de los recursos, la cobertura y la administración de los prestadores de servicios. Dentro de este contexto, el sector farmacéutico, encargado de la comercialización de medicamentos, enfrenta desafíos específicos debido a la limitada cobertura del sistema y la falta de sistemas de información robustos. Para garantizar un acceso adecuado a las terapias según las necesidades de la población, surge la necesidad de analizar la información del mercado de medicamentos de alto costo y del sistema de salud colombiano, con el objetivo de respaldar la toma de decisiones de manera analítica y fundamentada. Este trabajo propone la aplicación de modelos de aprendizaje automático y técnicas de minería de datos para abordar dichas necesidades, centrándose en la construcción de un modelo de clusterización inspirado en la metodología RFM (Recency, Frequency, Monetary) (Hughes, 1996), adaptada al contexto del sector farmacéutico. Para ello, se ajustaron los parámetros clásicos del modelo RFM, reemplazando la dimensión de recencia por los días de inventario de cada cliente y frecuencia por variaciones en las compras, mientras que la dimensión valor monetario se mantuvo para representar el valor económico asociado. Esta adaptación permitió capturar mejor la dinámica de compra de los clientes en función de su estabilidad de inventario y su impacto financiero. Los resultados de la clasificación son el resultado de un proceso estructurado que inició con la recopilación y consolidación de una base de datos de 110,322 registros correspondientes a transacciones comerciales realizadas durante un año. Posteriormente, se realizó un proceso de pretratamiento de los datos, que incluyó la limpieza, normalización y transformación de las variables para garantizar su calidad y coherencia. A continuación, se emplearon técnicas de clusterización no supervisada para segmentar a los clientes en grupos homogéneos, utilizando los algoritmos K-Means, Gaussian Mixture Model (GMM) y Aglomerativo (Hierarchical Clustering). La validación de los modelos se realizó mediante la comparación de la métrica WCSS (Within-Cluster Sum of Squares) adaptada a las características de cada algoritmo, permitiendo seleccionar el modelo con la mejor cohesión interna. Como resultado, el algoritmo K-Means mostró el mejor desempeño, evidenciado por un menor valor de WCSS de 5.93, lo que garantiza una mayor compactación de los clusters y, por ende, una segmentación más precisa. Finalmente, el modelo entrenado permitió clasificar a los clientes en función de su comportamiento histórico de compra y predecir su posible evolución futura, facilitando la identificación de segmentos con diferentes perfiles de riesgo financiero. Esta clasificación ofrece una herramienta práctica para la toma de decisiones comerciales basadas en datos, permitiendo implementar estrategias diferenciadas para cada grupo y optimizar la gestión del mercado de medicamentos de alto costo en Colombia. La metodología desarrollada es escalable y puede adaptarse a otras patologías, consolidando así una solución replicable para distintos contextos dentro del sector farmacéutico. (Tomado de la fuente)spa
dc.description.abstractCurrently, Colombia faces significant challenges in its healthcare system, particularly in the efficient management of resources, coverage, and the administration of healthcare service providers. Within this context, the pharmaceutical sector, responsible for the commercialization of medications, encounters specific challenges due to the system's limited coverage and the lack of robust information systems. To ensure adequate access to therapies according to the population's needs, there is a need to analyze information from the high-cost medication market and the Colombian healthcare system, aiming to support decision-making in an analytical and evidence-based manner. This study proposes the application of machine learning models and data mining techniques to address these needs, focusing on the development of a clustering model inspired by the RFM methodology (Recency, Frequency, Monetary) (Hughes, 1996), adapted to the pharmaceutical sector's context. For this purpose, the classic RFM parameters were adjusted by replacing the recency dimension with each client’s inventory days and the frequency dimension with variations in purchases, while the monetary value dimension was maintained to represent the associated economic value. This adaptation allowed for a better capture of customers' purchasing dynamics based on their inventory stability and financial impact. The classification results from a structured process that began with the collection and consolidation of a database with 110,322 records of commercial transactions carried out over one year. Subsequently, a data preprocessing phase was conducted, including data cleaning, normalization, and variable transformation to ensure quality and consistency. Next, unsupervised clustering techniques were employed to segment customers into homogeneous groups using the K-Means, Gaussian Mixture Model (GMM), and Agglomerative (Hierarchical Clustering) algorithms. The validation of the models was performed by comparing the WCSS (Within-Cluster Sum of Squares) metric, adapted to the characteristics of each algorithm, allowing the selection of the model with the highest internal cohesion. As a result, the K-Means algorithm demonstrated the best performance, evidenced by a lower WCSS value of 5.93, ensuring greater cluster compactness and, consequently, more precise segmentation. Finally, the trained model enabled the classification of customers based on their historical purchasing behavior and the prediction of their potential future evolution, facilitating the identification of segments with different financial risk profiles. This classification provides a practical tool for data-driven commercial decision-making, enabling differentiated strategies for each group and optimizing the management of the high-cost medication market in Colombia. The developed methodology is scalable and can be adapted to other pathologies, thus establishing a replicable solution for various contexts within the pharmaceutical sector.eng
dc.description.curricularareaIngeniería De Sistemas E Informática.Sede Medellínspa
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagíster en Ingeniería - Analíticaspa
dc.format.extent65 páginasspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.instnameUniversidad Nacional de Colombiaspa
dc.identifier.reponameRepositorio Institucional Universidad Nacional de Colombiaspa
dc.identifier.repourlhttps://repositorio.unal.edu.co/spa
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/88246
dc.language.isospaspa
dc.publisherUniversidad Nacional de Colombiaspa
dc.publisher.branchUniversidad Nacional de Colombia - Sede Medellínspa
dc.publisher.facultyFacultad de Minasspa
dc.publisher.placeMedellín, Colombiaspa
dc.publisher.programMedellín - Minas - Maestría en Ingeniería - Analíticaspa
dc.relation.indexedLaReferenciaspa
dc.relation.referencesAnitha, P., & Patil, M. M. (2022). RFM model for customer purchase behavior using K-Means algorithm. Journal of King Saud University-Computer and Information Sciences, 34(5), 1785-1792.spa
dc.relation.referencesAsllani, A., & Halstead, D. (2015). A Multi-Objective Optimization Approach Using the RFM Model in Direct Marketing. Academy of Marketing Studies Journal, 19, 65.spa
dc.relation.referencesCheng, Ching-Hsue & Chen, You-Shyang. (2009). Classifying the segmentation of customer value via RFM model and RS theory. Expert Systems with Applications. 36. 4176-4184. 10.1016/j.eswa.2008.04.003.spa
dc.relation.referencesClaycamp, H. J., & Massy, W. F. (1968). A theory of market segmentation. Journal of Marketing Research, 5(4), 388-394.spa
dc.relation.referencesColombo, R., & Jiang, W. (1999). A stochastic RFM model. Journal of Interactive Marketing, 13(3), 2-12.spa
dc.relation.referencesDumka, Ankur & Ashok, Alaknanda & Verma, Parag & Verma, Poonam. (2020). Advance Object Detection and Clustering Techniques Used for Big Data. 10.1201/9780429351310- 7.spa
dc.relation.referencesErnawati, E., Baharin, S. S. K., & Kasmin, F. (2021, April). A review of data mining methods in RFM-based customer segmentation. In Journal of Physics: Conference Series (Vol. 1869, No. 1, p. 012085). IOP Publishing.spa
dc.relation.referencesFernández-Huerga, E. (2023). La teoría de la segmentación del mercado de trabajo: enfoques, situación actual y perspectivas de futuro. Investigación Económica, 69(273), 115– 150.spa
dc.relation.referencesHajibaba, Homa & Grün, Bettina & Dolnicar, Sara. (2019). Improving the stability of market segmentation analysis. International Journal of Contemporary Hospitality Management. ahead-of-print. 10.1108/IJCHM-02-2019-0137.spa
dc.relation.referencesHastie, T., Tibshirani, R., Friedman, J. H., & Friedman, J. H. (2009). The elements of statistical learning: data mining, inference, and prediction (Vol. 2, pp. 1-758). New York: springer.spa
dc.relation.referencesHughes, A. M. (1996). Boosting response with RFM. Marketing Tools, 3(3), 4-10.spa
dc.relation.referencesIBM. (2024, December 19). K-Means Clustering. Retrieved from https://www.ibm.com/think/topics/k-means-clusteringspa
dc.relation.referencesIBM Developer. (2023). Ibm.com.ttps://developer.ibm.com/articles/cc-unsupervised- learning-data-classification/spa
dc.relation.referencesJ. C. Dunn (1973) A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clústeres, Journal of Cybernetics, 3:3, 32-57, DOI: 10.1080/01969727308546046spa
dc.relation.referencesJ Clin Pathol. 2007 Mar;60(3):336. doi: 10.1136/jcp.2006.032300.corr1. Erratum for: J Clin Pathol. 60:8. PMCID: PMC1860553.spa
dc.relation.referencesKubat, M. (2017). An introduction to machine learning (p. 273). Springer.spa
dc.relation.referencesLikas, A., Vlassis, N., & J. Verbeek, J. (2003). The global k-means clustering algorithm. Pattern Recognit., 36(2), 451–461. doi: 10.1016/S0031-3203(02)00060-2spa
dc.relation.referencesLiu, Y., Ram, S., Lusch, R. F., & Brusco, M. (2010). Multicriterion market segmentation: a new model, implementation, and evaluation. Marketing Science, 29(5), 880-894.spa
dc.relation.referencesMacQueen, J. (1967, June). Some methods for classification and analysis of multivariate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability (Vol. 1, No. 14, pp. 281-297).spa
dc.relation.referencesMarija Burinskiene & Vitalija Rudzkiene (2007) Application of logit regression models for the identification of market segments, Journal of Business Economics and Management, 8:4, 253-258, DOI: 10.1080/16111699.2007.9636177spa
dc.relation.referencesMcKinney, W. (2010). Data Structures for Statistical Computing in Python. ResearchGate, 56–61. doi: 10.25080/Majora-92bf1922-00aspa
dc.relation.referencesMinisterio de Salud y Protección Social. (2023). Minsalud.gov.co. https://www.minsalud.gov.co.spa
dc.relation.referencesMonaco C, Nanchahal J, Taylor P, Feldmann M. Anti-TNF therapy: past, present and future. Int Immunol. 2015 Jan;27(1):55-62. doi: 10.1093/intimm/dxu102. Epub 2014 Nov 19. PMID: 25411043; PMCID: PMC4279876.spa
dc.relation.referencesNwokeji, J. C., & Matovu, R. (2021). A systematic literature review on big data extraction, transformation and loading (etl). In Intelligent Computing: Proceedings of the 2021 Computing Conference, Volume 2 (pp. 308-324). Springer International Publishing.spa
dc.relation.referencesPeter J. Rousseeuw, Silhouettes: A graphical aid to the interpretation and validation of cluster analysis, Journal of Computational and Applied Mathematics, Volume 20, 1987, Pages 53-65, ISSN 0377-0427, https://doi.org/10.1016/0377-0427(87)90125-7.spa
dc.relation.referencesQian, Y., Jiang, Y., Du, Y., Sun, J., & Liu, Y. (2020). Segmenting market structure from multi- channel clickstream data: A novel generative model. Electronic Commerce Research, 20, 509-533.spa
dc.relation.referencesReich, M., Gordon, D. M., & Edwards, R. C. (1973). A Theory of Labor Market Segmentation. The American Economic Review, 63(2), 359–365. http://www.jstor.org/stable/1817097spa
dc.relation.referencesRoshan, H., & Afsharinezhad, M. (2017). The new approach in market segmentation by using RFM model. Journal of applied research on industrial engineering, 4(4), 259-267.spa
dc.relation.referencesSafari, F., Safari, N., & Montazer, G. A. (2016). Customer lifetime value determination based on RFM model. Marketing Intelligence & Planning, 34(4), 446-461.spa
dc.relation.referencesScikit-learn: Machine Learning in Python, Pedregosa et al., JMLR 12, pp. 2825-2830, 2011.spa
dc.relation.referencesSISPRO - Sistema Integrado de Información de la Protección Social. (2023). Sispro.gov.co. https://www.sispro.gov.co.spa
dc.relation.referencesSPSS Statistics Subscription - Classic. (2024, September 30). Retrieved from https://www.ibm.com/docs/es/spss-statistics/saas?topic=features-hierarchical-cluster- analysisspa
dc.relation.referencesU. Maulik and S. Bandyopadhyay, "Performance evaluation of some clustering algorithms and validity indices," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 12, pp. 1650-1654, Dec. 2002, doi: 10.1109/TPAMI.2002.1114856.spa
dc.relation.referencesUllmann, T., Hennig, C., & Boulesteix, A.-L. (2021). Validation of cluster analysis results on validation data: A systematic framework. ResearchGate. doi: 10.48550/arXiv.2103.01281spa
dc.relation.referencesWei, J. T., Lin, S. Y., & Wu, H. H. (2010). A review of the application of RFM model. African Journal of Business Management, 4(19), 4199.spa
dc.relation.referencesZiegel, E. R. (2003). The elements of statistical learning.spa
dc.relation.referencesZufryden, F. S. (1979). ZIPMAP—A zero-one integer programming model for market segmentation and product positioning. Journal of the Operational Research Society, 30, 63- 70.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacionalspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/spa
dc.subject.ddc000 - Ciencias de la computación, información y obras generales::004 - Procesamiento de datos Ciencia de los computadoresspa
dc.subject.ddc610 - Medicina y salud::615 - Farmacología y terapéuticaspa
dc.subject.lembMedicamentos - Precios - Procesamiento de datos
dc.subject.lembMinería de datos - Procesamiento de datos
dc.subject.lembAprendizaje automático (Inteligencia artificial)
dc.subject.lembControl de inventarios - Procesamiento de datos
dc.subject.proposalIndustria de alto costospa
dc.subject.proposaltoma de decisionesspa
dc.subject.proposalmodelo de datosspa
dc.subject.proposalModelo RFMspa
dc.subject.proposaloportunidades emergentesspa
dc.subject.proposaloptimización de recursosspa
dc.subject.proposalsegmentación de clientesspa
dc.subject.proposalHigh-cost industryeng
dc.subject.proposalData modeleng
dc.subject.proposaldecision makingeng
dc.subject.proposalRFM modeleng
dc.subject.proposalemerging opportunitieseng
dc.subject.proposalresource optimizationeng
dc.subject.proposalcustomer segmentationeng
dc.titleAnalítica predictiva y desarrollo de un modelo cuantitativo para estudio y segmentación del mercado farmacéutico para patologías de alto costospa
dc.title.translatedPredictive analytics and development of a quantitative model for the study and segmentation of the pharmaceutical market for high-cost pathologieseng
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
dcterms.audience.professionaldevelopmentEstudiantesspa
dcterms.audience.professionaldevelopmentInvestigadoresspa
dcterms.audience.professionaldevelopmentMaestrosspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
1007015432.2025.pdf
Tamaño:
1.67 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis de Maestría en Ingeniería - Analítica

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
5.74 KB
Formato:
Item-specific license agreed upon to submission
Descripción: