Show simple item record

dc.contributorLeón Guzmán, Elizabeth
dc.creatorMahecha Nieto, Isabel Andrea
dc.date.accessioned2019-06-24T16:38:25Z
dc.date.available2019-06-24T16:38:25Z
dc.date.created2011
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/7505
dc.descriptionLos portales web son grandes repositorios de información desorganizada. Muchas veces mantener una política de publicación de documentos es difícil, y finalmente cada parte de la organización publica sus documentos en lugares distintos en una estructura de carpetas particular. El acceso a los documentos se vuelve tedioso porque las personas que necesitan un documento en particular casi siempre desconocen su ubicación. Y a pesar de los hiper-vínculos entre documentos, muchas veces el texto que identifica el enlace no es suficiente para identificar el documento al que hace referencia. Por su parte, las librerías digitales se enfocan en la organización de la información a través de colecciones que permiten agrupar documentos similares lo cual agiliza el proceso de búsqueda de documentos específicos a quienes los consultan. La creación de librerías digitales se ha convertido en una opción económica y ágil, para la organización de documentos sobre diferentes temáticas, almacenados en diversos formatos (texto, audio, imagen, vídeo) en los sitios web. En este trabajo de tesis, se propone un sistema de administración de librerías digitales web de docu- mentos que es capaz de: 1) recuperar e indexar documentos publicados en un portal web, 2) generar una estructura de librería digital y 3) clasificar y permitir la consulta de los documentos a través de una interfaz de navegación. La recuperación e indexación se hace a través de un sistema de recuperación de información. El agrupamiento de los documentos se hace a través de un componente de minería de texto que contiene herramientas para el preprocesamiento de los documentos, y un algoritmo de agrupamiento conceptual. La interfaz de usuario se compone de dos vistas principales, la interfaz de navegación y un módulo de administración. La interfaz de navegación está compuesta por un árbol de categorías y un grafo que relaciona las diferentes categorías entre sí a través de los documentos que pertenecen a cada una de ellas. La interfaz de administración permite el acceso a los parámetros del sistema para la ejecución de los procesos de indexación y agrupamiento de los documentos. El caso de estudio propuesto para probar el prototipo fueron los portales ubicados dentro del dominio web de la Universidad Nacional de Colombia, el cual ofrece el escenario de una organización con múltiples servidores. / Abstract. Web portals are great repositories of information disorganized. Many times maintain a policy of publishing documents is difficult, and eventually each part of the organization publishes its documents in different places in a particular folder structure. Access to documents becomes tedious for those who need a particular document is almost always unknown their location. And although the hyperlinks between documents, often the text that identifies the link is not sufficient to identify the referenced document. For its part, digital libraries focus on the organization of information through libraries that allow you to group similar documents which streamlines the process of searching for specific documents to those who consult them. The creation of digital libraries has become an economical and flexible for the organization of documents on various topics, stored in various formats (text, audio, image, video). In this thesis a management system web digital library of documents is proposed. This system is able to: 1) retrieving and indexing documents on a website, 2) generating a digital library structure based on the content of the web documents and 3) classifying and allowing navigation of the web documents. The indexing and retrieval of the web documents is done through a system of information retrieval extended of the Nutch utility. For generating the structure of the digital library and future classifications, the documents are grouping through a text mining techniques, the system uses tools for preprocessing such as a Lucene, and a conceptual clustering algorithm called LINGO. For exploring and navigating the documents, the system provides a user interface that is composed by a category tree and a graph that relates the different categories with each other through the documents. Additionally, the system has and a management interface that allows setting the system parameters for the processes of indexing and clustering documents. The system of the web digital library proposed was applied to a web site located within the National University of Colombia, which has an environment with multiple servers.
dc.formatapplication/pdf
dc.relation.ispartofUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial
dc.relation.ispartofDepartamento de Ingeniería de Sistemas e Industrial
dc.subjectMinería de documentos Web
dc.subjectRecuperación de información
dc.subjectPortales Web
dc.subjectLibrerías digitales / Document web mining
dc.subjectInformation retrieval
dc.subjectWebsites
dc.subjectDigital libraries
dc.subject.ddc02 Bibliotecología y ciencias de la información / Library and information sciences
dc.subject.ddc62 Ingeniería y operaciones afines / Engineering
dc.titleSistema de generación, administración y consulta de una librería digital de documentos para un portal web / Generation system, management and search of a digital library of documents for a website
dc.typeinfo:eu-repo/semantics/masterThesis
dc.type.spaTesis/trabajos de grado - Thesis
dc.type.hasversioninfo:eu-repo/semantics/draft
dc.coverage.modalityMaestría
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess
dc.identifier.bibliographicCitationMahecha Nieto, Isabel Andrea (2011) Sistema de generación, administración y consulta de una librería digital de documentos para un portal web / Generation system, management and search of a digital library of documents for a website. Maestría thesis, Universidad Nacional de Colombia.
dc.identifier.eprintshttp://bdigital.unal.edu.co/3891/


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record