Guia metodológica para la selección de técnicas de depuración de datos

dc.contributor.advisorJiménez Ramírez, Claudia Stella (Thesis advisor)spa
dc.contributor.authorAmón Uribe, Ivánspa
dc.date.accessioned2019-07-03T13:03:42Zspa
dc.date.available2019-07-03T13:03:42Zspa
dc.date.issued2010spa
dc.description.abstractLos problemas de calidad de los datos han capturado la atención de los investigadores, llevando al desarrollo de múltiples técnicas para detectar y corregir los problemas en los datos, pero no es trivial decidir cuáles técnicas deben aplicarse a un conjunto de datos particular de la vida real. Para lograr buenos resultados en procesos de limpieza de datos, la elección de la técnica es fundamental, pero no se conoce de alguna metodología que detalle la forma de realizar dicha selección de técnicas. Es por esto que esta tesis de maestría construye una guía metodológica que oriente al analista de los datos hacia una selección, con mayor rigor científico, de las técnicas adecuadas para aplicar a un conjunto de datos particular de un dominio específico. La guía metodológica construida en este trabajo, orienta la selección de técnicas para tres de los posibles problemas que pueden presentar los datos: detección de duplicados, valores atípicos incorrectos y valores faltantes. Analistas de datos que requieran hacer tareas de depuración de datos para los tres problemas mencionados, encontrarán una guía metodológica expresada mediante diagramas de flujo, la cual recomienda una o varias técnicas –de entre algunas estudiadas- para su situación particular. / Abstract. Data quality problems have captured the attention of researchers, leading to the development of multiple techniques to detect and correct problems in the data, but it is not trivial to decide which techniques should be applied to a particular data set of real life. To achieve good results in data cleaning processes, the choice of technique is essential, but of the best of our knowledgement not known any methodology that details how to perform the selection of techniques. This work builds a methodological guide that orients the analyst of the data to a selection, with greater scientific rigor, appropriate techniques to apply to a particular data set from a specific domain. The guide direct the selection of techniques for three of the possible problems that may present the data: record linkage, outliers and missing values. Data analysts do tasks requiring data cleansing for the three problems mentioned above, find a methodological guide expressed by flowcharts, which recommends one or more techniques for their particular situationspa
dc.description.degreelevelMaestríaspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.eprintshttp://bdigital.unal.edu.co/2033/spa
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/69915
dc.language.isospaspa
dc.relation.ispartofUniversidad Nacional de Colombia Sede Medellín Facultad de Minas Escuela de Ingeniería de Materialesspa
dc.relation.ispartofEscuela de Ingeniería de Materialesspa
dc.relation.referencesAmón Uribe, Iván (2010) Guia metodológica para la selección de técnicas de depuración de datos. Maestría thesis, Universidad Nacional de Colombia.spa
dc.rightsDerechos reservados - Universidad Nacional de Colombiaspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.licenseAtribución-NoComercial 4.0 Internacionalspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/spa
dc.subject.ddc0 Generalidades / Computer science, information and general worksspa
dc.subject.proposalDepuración en Ciencia del Computadorspa
dc.subject.proposalDatosspa
dc.subject.proposalBases de datosspa
dc.subject.proposalProgramación (Computadores)spa
dc.titleGuia metodológica para la selección de técnicas de depuración de datosspa
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa

Archivos

Bloque original

Mostrando 1 - 4 de 4
Cargando...
Miniatura
Nombre:
71644758.20103.pdf
Tamaño:
68.19 KB
Formato:
Adobe Portable Document Format
Cargando...
Miniatura
Nombre:
71644758.20102.pdf
Tamaño:
320.67 KB
Formato:
Adobe Portable Document Format
Cargando...
Miniatura
Nombre:
71644758.20104.pdf
Tamaño:
243.11 KB
Formato:
Adobe Portable Document Format
Cargando...
Miniatura
Nombre:
71644758.20101.pdf
Tamaño:
2.2 MB
Formato:
Adobe Portable Document Format