A deep learning approach for 3D reconstruction of indoor scenes
Autores
Gómez, Diego
Director
Prieto Ortiz, Flavio Augusto
Tipo de contenido
Trabajo de grado - Maestría
Idioma del documento
InglésFecha de publicación
2024
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
La presente tesis de maestría expone el fundamento, experimentación, resultados y análisis del entrenamiento y evaluación de métodos para la reconstrucción 3D implícita, específicamente Neural Radiance
Fields (NeRF), mediante diferentes acercamientos para el conjunto de datos, que refieren a las imágenes
originales y a técnicas de aumentación, con el propósito de establecer el impacto de la aumentación de
imágenes en el rendimiento de métodos NeRF y seleccionar los acercamientos más viables.
Los conjuntos de datos originales fueron manualmente recolectados para seis escenas categorizadas en
dos variantes, tres para objetos específicos y tres para vistas amplias, donde un proceso de aumentación
con transformaciones de color y geométricas, resultó en 18 conjuntos finales generados con el software
COLMAP, el cual calculó las poses de las cámaras y puntos clave de las escenas. Si bien se probó un acercamiento para aumentar imágenes con una red generativa antagónica dual, mediante WGAN-GP para
generar nuevas muestras y una SRGAN para incrementar la resolución, el resultado no fue satisfactorio
dado las inconsistencias en las vistas de las cámaras y las distorsiones en las escenas.
A partir de una revisión de la literatura y teniendo en cuenta las limitaciones de hardware, se seleccionaron
cuatro métodos NeRF (i.e. 3D Gaussian Splatting, Instant-NGP, Nerfacto, zip-NeRF) para el entrenamiento
y evaluación de los 18 conjuntos de datos, resultando en 72 modelos y un tiempo total de más de 101
horas para ambos procesos. Según las métricas de evaluación y resultados visuales, la aumentación de
color mostró un incrementar en los resultados con respecto a las imágenes originales, mientras que las
transformaciones geométricas generaron el efecto contrario. Así mismo, mediante un extenso análisis y
discusión, se llegó a la selección del acercamiento de aumentación con color y de 3D Gaussian Splatting
como el método NeRF.
El documento está dividido en seis capítulos, que contienen la introducción, explicación teórica de la reconstrucción 3D y la aumentación de imágenes, procesos de experimentación, resultados, análisis, conclusiones y posibles trabajos futuros (Texto tomado de la fuente).
Abstract
This master’s thesis presents the foundation, experimentation, results and analysis for the training and
evaluation of implicit 3D reconstruction methods, specifically Neural Radiance Fields (NeRF), by using different dataset approaches that refer to original images and augmentation techniques, with the purpose of
identifying the impact of image augmentation on the performance of NeRF-based methods and to select
the most feasible approaches.
Original image datasets were manually collected for six scenes and categorized into two types, three for
specific objects and three for wide views, where an augmentation process with color and geometric transformations resulted in 18 final datasets generated with the COLMAP software, which calculated the camera
poses and keypoints of the scenes. While a dual generative adversarial network (dual-GAN) approach was
tested to augment images, with a WGAN-GP to generate new samples and a SRGAN to increase resolution,
it turned out not to be a feasible alternative given the camera inconsistencies and distortions in the scenes.
Based on a literature review and taking into account hardware limitations, four NeRF-based methods were
selected (i.e. 3D Gaussian Splatting, Instant-NGP, Nerfacto, zip-NeRF) for training and evaluation with the
18 datasets, that resulted in 72 models and a total time of more than 101 hours for both processes. From
the evaluation metrics and visual results, color augmentations showed to increase results with respect to
the original data, while geometric transformations generated the opposite effect. Also, through an extensive analysis and discussion, resulted in the selection of the color augmentation approach to increase image
data, and the 3D Gaussian Splatting as the NeRF-based method.
The document is divided into six chapters, that contain the introduction, theoretical explanation of 3D
reconstruction and image augmentation, experimentation processes, results and analysis, conclusions and
possible future works.
Descripción Física/Lógica/Digital
ilustraciones, diagramas, fotografías, tablas