Extracción de información de documentos de identidad utilizando técnicas de aprendizaje de máquina

Márquez Aristizábal, Hugo Alejandro

Extracción de información de documentos de identidad utilizando técnicas de aprendizaje de máquina

Archivos

1017231914.2022.pdf (7.17 MB)

Autores

Márquez Aristizábal, Hugo Alejandro

Director

Villa Garzón, Fernán Alonso

Tipo de contenido

Trabajo de grado - Maestría

Idioma del documento

Español

Fecha de publicación

2022-06-23

Documentos PDF

Resumen

La extracción automática de información de documentos de identidad es una tarea fundamental en diferentes procesos digitales como registros, solicitud de productos, validación de identidad, entre otros. La extracción de información consiste en la identificación, ubicación, clasificación y reconocimiento del texto de campos clave presentes en un documento, en este caso un documento de identidad. Tratándose de documentos de identidad, los campos clave son aquellos como: nombres, apellidos, números de documento, fechas, entre otros. El problema de extracción de información se ha solucionado tradicionalmente utilizando algoritmos basados en reglas y motores clásicos de OCR. En los últimos años se han realizado implementaciones de modelos de aprendizaje de máquina, utilizando modelos de NLP (procesamiento de lenguaje natural) y CV (visión por computador) para solucionar el problema de una manera más flexible y eficiente (Subramani et al., 2020). En este trabajo se propuso solucionar el problema de extracción de información con una aproximación de detección de objetos. Se implementó, entrenó y evaluó un modelo de detección de objetos basado en transformadores (Carion et al., 2020). Se logró llegar a una solución que alcanza valores de precisión superiores al 95% en la detección de campos clave en documentos de identidad. (Texto tomado de la fuente)

Abstract

Automatic information extraction from identity documents is a fundamental task in digital processes such as onboarding, requesting products, identity validation, among others. The information extraction process consists of identifying, locating, classifying and recognizing text of the corresponding key fields that an identity document contains. In the case of identity documents, key fields are: names, last names, document number, dates, among others. The information extraction problem has been traditionally solved using rule based algorithms and classic OCR engines. In the last few years there have been implementations based on machine learning models, using NLP (natural language processing) and CV (computer vision) to solve the problem in a more flexible and efficient way (Subramani et al., 2020). This work proposes to solve the problem of information extraction with an object detection approach. An object detection model based on transformers (Carion et al., 2020) was implemented, trained and evaluated. A solution with above 95% accuracy in detecting key fields on identification documents was achieved.

Palabras clave

Ientidad digital ; OCR ; Digital identity ; Extracción de información ; Information extraction ; Object detection ; Detección de objetos

URI

https://repositorio.unal.edu.co/handle/unal/82000

Colecciones

Maestría en Ingeniería - Analítica

Página completa del ítem

Extracción de información de documentos de identidad utilizando técnicas de aprendizaje de máquina

Archivos

Autores

Director

Tipo de contenido

Idioma del documento

Fecha de publicación

Título de la revista

ISSN de la revista

Título del volumen

Resumen

Abstract

Palabras clave

Descripción Física/Lógica/Digital

Palabras clave

Citación

URI

Colecciones