Aceleración de algoritmos de clasificación basados en disimilitudes, utilizando arquitecturas computacionales con múltiples núcleos.

Uribe Hurtado, Ana Lorena

Aceleración de algoritmos de clasificación basados en disimilitudes, utilizando arquitecturas computacionales con múltiples núcleos.

dc.contributor.advisor	Orozco-Alzate, Mauricio
dc.contributor.author	Uribe Hurtado, Ana Lorena
dc.contributor.researchgroup	Grupo de Ambientes Inteligentes Adaptativos - GAIA	spa
dc.date.accessioned	2022-03-23T23:09:39Z
dc.date.available	2022-03-23T23:09:39Z
dc.date.issued	2022
dc.description	gráficos, tablas.	spa
dc.description.abstract	En esta tesis se proponen estrategias y estructuras computacionales, basadas en arquitecturas multi-core y many-core, orientadas a desarrollar implementaciones paralelas de una selección representativa de algoritmos de reconocimiento de patrones basados en disimilitudes. Los algoritmos escogidos, tanto para clasificación supervisada como para agrupamiento, corresponden a algoritmos cuyas versiones secuenciales son costosas computacionalmente y para los que no se encontraron, en la revisión del estado del arte, implementaciones sobre arquitecturas paralelas como las arriba mencionadas. Los algoritmos que se paralelizaron tienen costos computacionales diversos en sus versiones secuenciales. Algunos de ellos son tan costosos que su uso práctico, sin paralelización, resulta inviable cuando se tienen requerimientos como la obtención de respuestas en pseudo-tiempo real, el enriquecimiento de conjuntos de datos pequeños mediante sobre-muestreo combinatorio, la ejecución repetida para estimar medidas de desempeño estadísticamente confiables durante simulaciones exhaustivas o las actualizaciones frecuentes de los resultados en escenarios de grandes flujos de datos. Las versiones paralelas de los algoritmos de clasificación y agrupamiento se presentan como seudocódigos y fueron implementadas principalmente en ANSI C y CUDA para sus ejecuciones sobre arquitecturas multi-core y many-core, respectivamente. Se realizaron experimentos con conjuntos de datos representativos y se reportaron los tiempos de respuesta tanto de las versiones secuenciales como de las versiones paralelas respectivas, así como las aceleraciones logradas con la paralelización. En todos los casos, se garantizó que las etiquetas de clase asignadas por las dos versiones --secuencial y paralela—coincidiera incluso bajo condiciones distintas de precisión de punto flotante, por ejemplo, precisión de CPU vs. precisión de GPU. Los análisis de los algoritmos seleccionados, la novedad de sus implementaciones paralelas, las aceleraciones logradas en las ejecuciones y la representatividad de las aplicaciones ilustradas componen los principales aportes de esta tesis. Entre estas últimas, se pueden destacar las paralelizaciones de algoritmos de clasificación costosos como los de enriquecimiento combinatorio de representación mediante líneas de características y el agrupamiento de datos masivos de georreferenciación. La mayor parte del material original presentado en todos los capítulos ha sido discutido y publicado previamente, bien sea como ponencias en eventos académicos o como artículos en revistas científicas indexadas. Las publicaciones correspondientes se indican al inicio de cada capítulo.	spa
dc.description.abstract	This thesis proposes computational strategies and structures, based on multi-core and manycore architectures, aimed at developing parallel implementations of a representative selection of dissimilarity-based pattern recognition algorithms. The algorithms chosen for both supervised classi cation and clustering correspond to algorithms whose sequential versions are computationally expensive and for which, in the review of the state of the art, implementations on parallel architectures such as those mentioned above were not found. The algorithms that were parallelized have di erent computational costs in their sequential versions. Some of them are so expensive that their practical use, without parallelization, is not feasible when there are requirements such as obtaining responses in pseudo-real time, enrichment of small data sets by combinatorial oversampling, repeated execution to estimate statistically reliable performance measures during exhaustive simulations, or frequent updates of the results in scenarios of big data streams. The parallel versions of the classi cation and clustering algorithms are presented as pseudocodes and were implemented mainly in ANSI C and CUDA for their executions on multi-core and many-core architectures, respectively. Experiments were carried out with representative datasets and the response times of both the sequential and the respective parallel versions were reported, as well as the accelerations achieved with parallelization. In all cases, the class labels assigned by the two versions \|sequential and parallel\| were guaranteed to match even under di erent oating point precision conditions, for example CPU precision vs. GPU precision. The novelty of the parallel implementations of the selected algorithms, the accelerations achieved in the executions and the representativeness of the illustrated applications compose the main contributions of this thesis. Among the latter, we can highlight the parallelizations of expensive classi cation algorithms such as those of combinatorial enrichment of representation through features lines and the clustering of massive geospatial data. Most of the original material presented in all chapters has been previously discussed and published, either as presentations at academic events or as papers in indexed scienti c journals. The corresponding publications are indicated at the beginning of every chapter.	eng
dc.description.curriculararea	Industrial, Organizaciones Y Logística	spa
dc.description.degreelevel	Doctorado	spa
dc.description.degreename	Doctor en Ingeniería	spa
dc.description.researcharea	Métodos y modelos de optimización y estadística en Ingeniería Industrial y Administrativa	spa
dc.format.extent	xxiii, 201 páginas	spa
dc.format.mimetype	application/pdf	spa
dc.identifier.instname	Universidad Nacional de Colombia	spa
dc.identifier.reponame	Repositorio Institucional Universidad Nacional de Colombia	spa
dc.identifier.repourl	https://repositorio.unal.edu.co/	spa
dc.identifier.uri	https://repositorio.unal.edu.co/handle/unal/81347
dc.language.iso	spa	spa
dc.publisher	Universidad Nacional de Colombia	spa
dc.publisher.branch	Universidad Nacional de Colombia - Sede Manizales	spa
dc.publisher.department	Departamento de Ingeniería Industrial	spa
dc.publisher.faculty	Facultad de Ingeniería y Arquitectura	spa
dc.publisher.place	Manizales, Colombia	spa
dc.publisher.program	Manizales - Ingeniería y Arquitectura - Doctorado en Ingeniería - Industria y Organizaciones	spa
dc.relation.references	Doug Abbott. Chapter 12 - Posix Threads. In Doug Abbott, editor, Linux for Embedded and Real-time Applications (Second Edition), Embedded Technology, pages 197-214. Newnes, Burlington, second edition edition, 2006.	spa
dc.relation.references	Elfatih M. Abdel-Rahman, Onisimo Mutanga, Elhadi Adam, and Riyad Ismail. Detecting Sirex noctilio grey-attacked and lightning-struck pine trees using airborne hyperspectral data, random forest and support vector machines classi ers. ISPRS Journal of Photogrammetry and Remote Sensing, 88:48-59, 2014.	spa
dc.relation.references	Karim Abou-Moustafa and Frank P. Ferrie. Local generalized quadratic distance metrics: Application to the k-nearest neighbors classi er. Advances in Data Analysis and Classi cation, 12(2):341-363, 2018.	spa
dc.relation.references	Samson Abramsky. Computational interpretations of linear logic. Theoretical Computer Science, 111(1-2):3-57, 1993.	spa
dc.relation.references	A. Ahmadzadeh, R. Mirzaei, H. Madani, M. Shobeiri, M. Sadeghi, M. Gavahi, K. Jafari, M. M. Aznaveh, and S. Gorgin. Cost-e cient implementation of k-NN algorithm on multi-core processors. In Twelfth ACM/IEEE International Conference on Formal Methods and Models for Codesign, MEMOCODE 2014, pages 205-208, oct 2014.	spa
dc.rights.accessrights	info:eu-repo/semantics/openAccess	spa
dc.rights.license	Atribución-NoComercial-SinDerivadas 4.0 Internacional	spa
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	spa
dc.subject.ddc	620 - Ingeniería y operaciones afines	spa
dc.subject.proposal	Clasificación y agrupamiento basados en disimilitudes	spa
dc.subject.proposal	Computación paralela	spa
dc.subject.proposal	Múltiples núcleos CPU	spa
dc.subject.proposal	Muchos núcleos GPU	spa
dc.subject.proposal	Medidas de disimilitud	spa
dc.subject.proposal	Prueba leave-one-out para múltiples núcleos	spa
dc.subject.proposal	Dissimilarity-based classifiers and clustering Inglés	eng
dc.subject.proposal	Parallel computer	eng
dc.subject.proposal	Multi-core CPU	eng
dc.subject.proposal	Many-core GPU	eng
dc.subject.proposal	Dissimilarity measures	eng
dc.subject.proposal	Leave-one-out test for multi-core	eng
dc.title	Aceleración de algoritmos de clasificación basados en disimilitudes, utilizando arquitecturas computacionales con múltiples núcleos.	spa
dc.title.translated	Acceleration of dissimilarity-based classi cation algorithms using multi-core computational architectures.	eng
dc.type	Trabajo de grado - Doctorado	spa
dc.type.coar	http://purl.org/coar/resource_type/c_db06	spa
dc.type.coarversion	http://purl.org/coar/version/c_ab4af688f83e57aa	spa
dc.type.content	Image	spa
dc.type.content	Text	spa
dc.type.driver	info:eu-repo/semantics/doctoralThesis	spa
dc.type.version	info:eu-repo/semantics/acceptedVersion	spa
dcterms.audience.professionaldevelopment	Bibliotecarios	spa
dcterms.audience.professionaldevelopment	Estudiantes	spa
dcterms.audience.professionaldevelopment	Investigadores	spa
dcterms.audience.professionaldevelopment	Maestros	spa
dcterms.audience.professionaldevelopment	Público general	spa
oaire.accessrights	http://purl.org/coar/access_right/c_abf2	spa

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: 41914787.2022.pdf
Tamaño:: 2.47 MB
Formato:: Adobe Portable Document Format
Descripción:: Tesis de Doctorado en Ingeniería – Industria y Organizaciones

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.98 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Doctorado en Ingeniería - Industria y Organizaciones