A deep learning approach for 3D reconstruction of indoor scenes

Gómez, Diego

A deep learning approach for 3D reconstruction of indoor scenes

Archivos

Tesis de Maestría en Ingeniería - Ingeniería de Sistemas y Computación (21.12 MB)

Autores

Gómez, Diego

Director

Prieto Ortiz, Flavio Augusto

Tipo de contenido

Trabajo de grado - Maestría

Document language:

Inglés

Fecha

2024

Documentos PDF

Resumen

La presente tesis de maestría expone el fundamento, experimentación, resultados y análisis del entrenamiento y evaluación de métodos para la reconstrucción 3D implícita, específicamente Neural Radiance Fields (NeRF), mediante diferentes acercamientos para el conjunto de datos, que refieren a las imágenes originales y a técnicas de aumentación, con el propósito de establecer el impacto de la aumentación de imágenes en el rendimiento de métodos NeRF y seleccionar los acercamientos más viables. Los conjuntos de datos originales fueron manualmente recolectados para seis escenas categorizadas en dos variantes, tres para objetos específicos y tres para vistas amplias, donde un proceso de aumentación con transformaciones de color y geométricas, resultó en 18 conjuntos finales generados con el software COLMAP, el cual calculó las poses de las cámaras y puntos clave de las escenas. Si bien se probó un acercamiento para aumentar imágenes con una red generativa antagónica dual, mediante WGAN-GP para generar nuevas muestras y una SRGAN para incrementar la resolución, el resultado no fue satisfactorio dado las inconsistencias en las vistas de las cámaras y las distorsiones en las escenas. A partir de una revisión de la literatura y teniendo en cuenta las limitaciones de hardware, se seleccionaron cuatro métodos NeRF (i.e. 3D Gaussian Splatting, Instant-NGP, Nerfacto, zip-NeRF) para el entrenamiento y evaluación de los 18 conjuntos de datos, resultando en 72 modelos y un tiempo total de más de 101 horas para ambos procesos. Según las métricas de evaluación y resultados visuales, la aumentación de color mostró un incrementar en los resultados con respecto a las imágenes originales, mientras que las transformaciones geométricas generaron el efecto contrario. Así mismo, mediante un extenso análisis y discusión, se llegó a la selección del acercamiento de aumentación con color y de 3D Gaussian Splatting como el método NeRF. El documento está dividido en seis capítulos, que contienen la introducción, explicación teórica de la reconstrucción 3D y la aumentación de imágenes, procesos de experimentación, resultados, análisis, conclusiones y posibles trabajos futuros (Texto tomado de la fuente).

Abstract

This master’s thesis presents the foundation, experimentation, results and analysis for the training and evaluation of implicit 3D reconstruction methods, specifically Neural Radiance Fields (NeRF), by using different dataset approaches that refer to original images and augmentation techniques, with the purpose of identifying the impact of image augmentation on the performance of NeRF-based methods and to select the most feasible approaches. Original image datasets were manually collected for six scenes and categorized into two types, three for specific objects and three for wide views, where an augmentation process with color and geometric transformations resulted in 18 final datasets generated with the COLMAP software, which calculated the camera poses and keypoints of the scenes. While a dual generative adversarial network (dual-GAN) approach was tested to augment images, with a WGAN-GP to generate new samples and a SRGAN to increase resolution, it turned out not to be a feasible alternative given the camera inconsistencies and distortions in the scenes. Based on a literature review and taking into account hardware limitations, four NeRF-based methods were selected (i.e. 3D Gaussian Splatting, Instant-NGP, Nerfacto, zip-NeRF) for training and evaluation with the 18 datasets, that resulted in 72 models and a total time of more than 101 hours for both processes. From the evaluation metrics and visual results, color augmentations showed to increase results with respect to the original data, while geometric transformations generated the opposite effect. Also, through an extensive analysis and discussion, resulted in the selection of the color augmentation approach to increase image data, and the 3D Gaussian Splatting as the NeRF-based method. The document is divided into six chapters, that contain the introduction, theoretical explanation of 3D reconstruction and image augmentation, experimentation processes, results and analysis, conclusions and possible future works.

Palabras clave propuestas

3D reconstruction; Artificial neural networks; Image augmentation; Deep learning; Computer vision; Reconstrucción 3D; Redes neuronales artificiales; Aprendizaje profundo; Visión por computador; Aumentación de imágenes

Descripción

ilustraciones, diagramas, fotografías, tablas

URI

https://repositorio.unal.edu.co/handle/unal/87552

Colecciones

Maestría en Ingeniería - Sistemas y Computación

Página completa del ítem

A deep learning approach for 3D reconstruction of indoor scenes

Archivos

Autores

Director

Tipo de contenido

Editor

Document language:

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Resumen

Abstract

Palabras clave propuestas

Descripción

Palabras clave

Citación

URI

Colecciones