Detection and tracking of motorcycles in urban environments by using video sequences with high level of oclussion

Miniatura

Autores

Espinosa Oviedo, Jorge Ernesto

Director

Velastín Carroza, Sergio Alejandro (Thesis advisor)

Tipo de contenido

Trabajo de grado - Doctorado

Idioma del documento

Español

Fecha de publicación

2019-07-05

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

This thesis presents an investigation into detection, classi_cation and tracking of occluded motorcycles from urban tra_c scenes. The _nal aim is to develop an accurate system that allows automatic detection and tracking of motorcycles, which are the most frequent vulnerable user of urban tra_c in emerging countries. Operators of urban tra_c surveillance system could enhance the monitoring of this users and even prevent the high accidentally rate that they represent. Initially, a Motorcycle classi_er for urban scenarios is implemented using a pre-trained convolutional neural network for feature extraction. Motorcycles and cars are classi_ed by using the extracted features from a CNN network, and classi_ed using an SVM. The strategy is evaluated in an urban tra_c dataset, achieving a 99.4% accuracy working with three classes, and 99.3% accuracy with _ve classes. Given the good classi_cation results, we move to detection and classi_cations of vehicles in a urban dataset. A hybrid strategy, which combines GMM for object detection and use of CNN for feature extraction and posterior classi_cation, is _rst considered. Then, a two stage detector as Faster R-CNN is used for object detection and classi_cation. The pre-trained Faster R-CNN model achieves an F1 score of 68% outperforming the hybrid model, which achieves 58 %. Based in the good results obtained by a two stage detector as Faster R-CNN, we propose EspiNet, which is a more compact network able to detect and classify motorcycles under high occlusion in congested urban tra_c environments. The method detects and classify motorcycles even under camera movements, objects overlapping and stationary objects. Due to the absence of urban annotated motorcycle datasets, we introduce a new dataset of 7500 and 10,000 annotated images, captured under real tra_c scenes, using a drone mounted camera. The proposed model achieves an F1 Score of 95.3% with an AP of 89.32 %. Overcoming the results of state of the art detectors trained end to end in the introduced Urban Motorbike Dataset (UMD). For benchmark proposes, we compare with a single stage detector such as Yolo v3 and two stage detectors as Faster R-CNN (VGG16 based). The proposed model is used to improve tracking, in a Multiple Object Tracking implementation based on a Markov Decision Process, and in a Deep Learning MOT tracking mechanism. The detection results with a high con_dence hypothesis, improve the tracking processes achieving a Multiple Object Tracking Accuracy (MOTA) of 86.1% and 87.6% respectively, overcoming the state of the art results presented in tracking benchmarks as the used in KITTI dataset. The thesis concludes with a critical analysis of the presented work and a general outlook for future research proposes
Resumen: Esta tesis presenta una investigación sobre la detección, clasificación y seguimiento de motocicletas en escenarios de trancón urbano con un alto nivel de oclusión. El objetivo es poder desarrollar un sistema preciso que permita la detección y el seguimiento automático de motocicletas, que resultan ser los usuarios más vulnerables, constantemente expuestos a accidentes en el tráfico urbano en los países emergentes. Los operadores de los sistemas de vigilancia de tráfico urbano podrían mejorar el monitoreo de estos usuarios e incluso evitar la alta tasa de accidentalidad que presentan. Inicialmente, se implementa un clasificador de motocicletas en escenarios urbanos utilizando un modelo de red neuronal convolucional pre-entrenada, usada para la extracción de características. Este modelo clásico motocicletas, automóviles y el entorno urbano utilizando las características extraídas de la red CNN y evaluadas por una máquina de soporte vectorial (SVM). La estrategia se evalúa en un conjunto de datos de tráfico urbano, logrando un 99.4% de precisión, con un dataset constituido por tres clases y 99.3% de precisión cuando el dataset es ampliado a cinco clases. Dados los buenos resultados de clasificación, nos enfocamos después en la detección y clasificación de vehículos en un conjunto de datos urbano. En primera instancia, se compara una estrategia híbrida que combina GMM para la detección de objetos y el uso de CNN para la extracción de características, evaluadas para su posterior clasificación. En segunda instancia, se utiliza un detector de dos etapas denominado Faster R-CNN, que es usado para la detección y clasificación de objetos. El modelo pre-entrenado de Faster R-CNN alcanza un puntaje de F1 de 68% superando al modelo híbrido, que solo logra el 58 %. Basados en los buenos resultados obtenidos por el detector de dos etapas (Faster R-CNN), desarrollamos \EspiNet", que es una red compacta capaz de detectar y clasificar motocicletas en imágenes con alto nivel de oclusión en entornos de tráfico urbano congestionados. El método detecta y clasifica las motocicletas incluso en imágenes capturadas con movimientos de cámara, objetos superpuestos y objetos estacionarios. Debido a que al fecha de esta investigación, no existen conjuntos de datos de motocicletas en entornos urbanos debidamente anotadas, presentamos un nuevo conjunto de 7500 y 10,000 imágenes, capturadas en escenas de tráfico urbano real, utilizando una cámara montada en un dron y que han sido debidamente anotadas para la generación de Ground Truth. Aplicada sobre este conjunto de datos, EspiNet alcanza un puntaje de F1 de 95.3% con una Precisión Promedio (AP) de 89.32 %. Este modelo, supera los resultados de detectores estado del arte, que han sido entrenados en su totalidad para esta investigación utilizando el conjunto de datos mencionado. A manera de referencia, se utilizan dos ejemplos de detectores estado del arte, de etapa _única como Yolo v3 y detectores de dos etapas como Faster R-CNN (basado en VGG16). Finalmente, el modelo propuesto se utiliza para mejorar el seguimiento (tracking), en una implementación de Seguimiento Multi Objeto basada en un Proceso de Decisión de Markov y una implementación de MOT basada en deep learning. Los resultados de detección, con una hipótesis de alta confianza (proveidos por EspiNet), mejoran notablemente el proceso de seguimiento, logrando una Precisión de seguimiento de objetos múltiples (MOTA) de 86.1%y 87.6% respectivamente, superando los resultados en el estado del arte, presentados por ejemplo en el benchmark de seguimiento utilizando el conjunto de datos KITTI. La tesis concluye con un análisis crítico del trabajo presentado y una perspectiva general para un trabajo futuro de investigación

Abstract

Descripción Física/Lógica/Digital

Palabras clave

Citación