Modelo de aprendizaje para estructurar los datos de las hojas de vida de maquinaria amarilla
Author
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2022Metadata
Show full item recordSummary
La falta de información relevante para la toma de decisiones es uno de los grandes problemas a los que se enfrentan los departamentos de mantenimiento en las empresas. Esta tesis explora un método automático para aportar a la solución de este problema mediante la extracción de información relevante de los registros históricos de las actividades de mantenimiento realizadas en los equipos. Dada la naturaleza de los datos, texto no estructurado con lenguaje técnico, se plantea la implementación de diferentes representaciones (bag of words, term frequency-inverse document frequency, Fasttext y Doc2vec) para alimentar los modelos de aprendizaje de ma ́quina que realizan la estructuración de información importante contenida en los documentos. En la búsqueda del modelo con mejor rendimiento se compararon modelos de support vector machine, random forest, gaussian naive bayes y gradient boosting trees. Estos modelos se aplicaron a datos provenientes de un negocio de venta y renta de maquinaria amarilla; se consideraron 12 montacargas de 3 modelos diferentes y 4 variables independientes en las cuales se extrae información: tipología, falla encontrada, estado final y sistema. Los modelos con mejor rendimiento alcanzaron un f1-score macro 0,86, 0,8, 0,81 y 0,68 con 3 support vector machine y un gradient boosting trees. Se concluye que para obtener mejores resultados el paso a seguir es aumentar la base de datos y expandir el campo de aplicación. (Texto tomado de la fuente).Abstract
The lack of relevant information for decision-making is one of the major problems that maintenance departments face. In this thesis, an automatic method is explored to contribute to the solution of this problem by extracting relevant information from the records that are kept of the maintenance activities carried out on the equipment. Given the nature of the data, unstructured text with technical language, the implementation of different representations (bag of words, term frequency–inverse document frequency, Fasttext and Doc2vec) is proposed for the machine learning models that carry out the structuring of relevant information contained in the documents. In the search for the best performing model, support vector machine, random forest, gaussian naive bayes and gradient boosting trees models were compared. The models were applied to data from a business of sale and rental of yellow machinery; 15 forklifts of 3 different models and four independent variables in which information is extracted were considered: typology, fault found, final state and system. The best performing models achieved f1-score macro 0,86, 0,8, 0,81 y 0,68 with 3 support vector.Keywords
Physical description
ilustraciones, gráficas, tablas
Collections
