An information retrieval strategy for large multimodal data collections involving source code and natural language

dc.contributorGonzález Osorio, Fabio Augustospa
dc.contributorRestrepo Calle, Felipespa
dc.contributor.authorBaquero Vargas, Juan Felipespa
dc.date.accessioned2020-03-30T06:22:16Zspa
dc.date.available2020-03-30T06:22:16Zspa
dc.date.issued2019-07-03spa
dc.description.abstractSource code repositories store data from software products. Among this data we can find the evolution of the source code, requirements, bugs and communication between developers. Source code repositories have been growing rapidly in the recent years andwith them the need of extracting information from them. An interesting source code repository that is growing both in usage and information is Stack Overflow (SO), this web site provides one of the biggest Question Answering places used by thousands of developers everyday. In SO the developers can ask any question related to a programming issue and it will be answered by other users. We can find a source code repository with both source code and natural language with thousands of samples and the possibility of combining both sources of information to extract useful and not eye-noticeable information from it. In this thesis, we explore how to represent source code and natural language and how to combine these representations. We try to solve the task of understanding how users in SO talk about the programming language, how similar these programming languages are among them based on how users talk about them, and finally, we provide tools on the building of an information retrieval strategy by identifying duplicated post.spa
dc.description.abstractLos repositorios de software almacenan datos sobre los productos de software, datos relacionados con la evolución de código fuente, requerimientos de software, reporte de bugs y comunicación entre desarrolladores. Los repositorios de software han crecido rápidamente en los últimos años y con ellos la necesidad de extraer información significativa de ellos. Un repositorio de software intersante es Stack Overflow(SO), este sitio web es uno de los sitios de Question Answering más grandes y usados por miles de desarrolladores de sofware en su día a día. En SO los desarrollares pueden preguntar cualquier duda relacionada con programación y software que será respondida por otros usuarios. Como SO, existen muchos repositorios de software con código fuente y texto con millones de ejemplares y la posibilidad de combinar ambas fuentes para extraer información de ellos que no es visible a simple vista. En este trabajo de tesis, exploramos como representar código fuente y lenguaje natural y cómo combinar estas representaciones. Intentamos resolver la tarea de entender como los usuarios de SO hablan sobre un lenguage de programación, que tan similares son los lenguajes de programación basados en cómo los usuarios hablen sobre ellos y, finalmente, proporcionar herramientas para construir una estrategia de recuperación de información para identificar post duplicados.spa
dc.description.degreelevelMaestríaspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.eprintshttp://bdigital.unal.edu.co/73062/spa
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/76556
dc.language.isospaspa
dc.relation.haspart0 Generalidades / Computer science, information and general worksspa
dc.relation.haspart6 Tecnología (ciencias aplicadas) / Technologyspa
dc.relation.haspart62 Ingeniería y operaciones afines / Engineeringspa
dc.relation.ispartofUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial Ingeniería de Sistemasspa
dc.relation.ispartofIngeniería de Sistemasspa
dc.relation.referencesBaquero Vargas, Juan Felipe (2019) An information retrieval strategy for large multimodal data collections involving source code and natural language. Maestría thesis, Universidad Nacional de Colombia - Sede Bogotá.spa
dc.rightsDerechos reservados - Universidad Nacional de Colombiaspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.licenseAtribución-NoComercial 4.0 Internacionalspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/spa
dc.subject.proposalStack Overflowspa
dc.subject.proposalsource code analysisspa
dc.subject.proposalDuplication detectionspa
dc.subject.proposalPredicting programming languagespa
dc.subject.proposalAnálisis de código fuentespa
dc.subject.proposalDetección de duplicadosspa
dc.subject.proposalPredecir el lenguaje de programaciónspa
dc.titleAn information retrieval strategy for large multimodal data collections involving source code and natural languagespa
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Tesis_Maestra_JFBV__Universidad_Nacional_de_Colombia.pdf
Tamaño:
1.09 MB
Formato:
Adobe Portable Document Format