Atribución-NoComercial-SinDerivadas 4.0 InternacionalGómez Jaramillo, Francisco AlbeiroPrado Gamba, Lina Fernanda2022-06-282022-06-282022https://repositorio.unal.edu.co/handle/unal/81638ilustraciones, gráficas, tablasLa falta de información relevante para la toma de decisiones es uno de los grandes problemas a los que se enfrentan los departamentos de mantenimiento en las empresas. Esta tesis explora un método automático para aportar a la solución de este problema mediante la extracción de información relevante de los registros históricos de las actividades de mantenimiento realizadas en los equipos. Dada la naturaleza de los datos, texto no estructurado con lenguaje técnico, se plantea la implementación de diferentes representaciones (bag of words, term frequency-inverse document frequency, Fasttext y Doc2vec) para alimentar los modelos de aprendizaje de ma ́quina que realizan la estructuración de información importante contenida en los documentos. En la búsqueda del modelo con mejor rendimiento se compararon modelos de support vector machine, random forest, gaussian naive bayes y gradient boosting trees. Estos modelos se aplicaron a datos provenientes de un negocio de venta y renta de maquinaria amarilla; se consideraron 12 montacargas de 3 modelos diferentes y 4 variables independientes en las cuales se extrae información: tipología, falla encontrada, estado final y sistema. Los modelos con mejor rendimiento alcanzaron un f1-score macro 0,86, 0,8, 0,81 y 0,68 con 3 support vector machine y un gradient boosting trees. Se concluye que para obtener mejores resultados el paso a seguir es aumentar la base de datos y expandir el campo de aplicación. (Texto tomado de la fuente).The lack of relevant information for decision-making is one of the major problems that maintenance departments face. In this thesis, an automatic method is explored to contribute to the solution of this problem by extracting relevant information from the records that are kept of the maintenance activities carried out on the equipment. Given the nature of the data, unstructured text with technical language, the implementation of different representations (bag of words, term frequency–inverse document frequency, Fasttext and Doc2vec) is proposed for the machine learning models that carry out the structuring of relevant information contained in the documents. In the search for the best performing model, support vector machine, random forest, gaussian naive bayes and gradient boosting trees models were compared. The models were applied to data from a business of sale and rental of yellow machinery; 15 forklifts of 3 different models and four independent variables in which information is extracted were considered: typology, fault found, final state and system. The best performing models achieved f1-score macro 0,86, 0,8, 0,81 y 0,68 with 3 support vector.xii, 73 páginasapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/4.0/510 - Matemáticas::519 - Probabilidades y matemáticas aplicadasModelo de aprendizaje para estructurar los datos de las hojas de vida de maquinaria amarillaTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessComputational linguisticsLingüística computacionalMachine learningAprendizaje automático (Inteligencia artificial)MachineryMaquinariaMantenimientoRegistros de mantenimientoExtraccion de informaciónAprendizaje de máquinaProcesamiento de lenguaje naturalMaintenanceMaintenance logsInformation extractionMachine learningNatural language processing.Machine learning model to structure yellow machinery logs