Método para la detección de aves en espacios naturales y no naturales basado en técnicas de machine learning

Reconocimiento 4.0 InternacionalEspinosa Bedoya, AlbeiroAlvarez Vásquez, Anderson2026-03-052026-03-052026-01-14https://repositorio.unal.edu.co/handle/unal/89724ilustraciones, gráficas, tablasLa observación y el monitoreo de aves desempeñan un papel fundamental en el estudio y la conservación de la biodiversidad, ya que estas especies actúan como indicadores sensibles de los cambios ambientales. Sin embargo, detectar aves de manera confiable a partir de imágenes sigue siendo una tarea compleja. Las aves pueden aparecer en escenarios muy diversos, desde bosques densos y paisajes naturales abiertos hasta entornos urbanos dominados por construcciones humanas. A esta diversidad de contextos se suman factores como la variación en iluminación, el tamaño reducido de muchas especies, las oclusiones parciales y la similitud visual con el fondo, lo que dificulta su detección automática mediante métodos convencionales. En los últimos años, las técnicas de aprendizaje automático y, en particular, los modelos de Deep Learning han mostrado un gran potencial para abordar problemas complejos de visión por computador. No obstante, en aplicaciones reales de monitoreo ambiental persisten desafíos importantes relacionados con la robustez de los modelos, su capacidad para generalizar a distintos entornos y el equilibrio entre precisión y costo computacional. En este contexto, surge la necesidad de enfoques que no dependan de un único modelo, sino que combinen diferentes perspectivas del análisis visual para lograr decisiones más confiables. Este trabajo se enmarca en dicha necesidad y presenta un método de Machine Learning para la detección de aves en imágenes provenientes de entornos naturales y no naturales. La propuesta se apoya en una estrategia de dos etapas complementarias. En una primera etapa, la imagen completa es examinada de manera amplia para localizar regiones que puedan contener aves, utilizando un detector de objetos del tipo YOLO (You Only Look Once), en su versión YOLOv8n. En una segunda etapa, estas regiones son analizadas con mayor detalle mediante una red neuronal convolucional binaria, cuyo propósito es confirmar o descartar la presencia de un ave. Esta división del proceso permite aprovechar la rapidez y cobertura del detector inicial, al tiempo que se refuerza la confiabilidad de la decisión final. Para el desarrollo y evaluación del método se emplearon imágenes del subconjunto bird del dataset Open Images V7, balanceadas entre contextos naturales y no naturales. Con el fin de integrar coherentemente la información proveniente de ambos modelos, las salidas probabilísticas se calibran y se combinan en una única predicción por imagen mediante un esquema de ensamble. Esta integración está orientada a favorecer la estabilidad del sistema frente a escenarios visualmente complejos, a reducir errores en casos difíciles y a mantener un desempeño consistente en distintos tipos de entorno. La evaluación del método se realiza siguiendo un protocolo reproducible y apoyándose en métricas ampliamente aceptadas en la literatura, lo que permite analizar de manera sistemática el comportamiento del sistema y compararlo con enfoques relevantes reportados en trabajos previos. Los resultados obtenidos muestran que la combinación de una búsqueda amplia con una verificación posterior contribuye a mejorar la robustez del proceso de detección y a ofrecer un balance adecuado entre calidad de los resultados y eficiencia computacional. Cuantitativamente, en la validación principal el ensamble con Gating Bidireccional alcanzó una Accuracy de 0.9783 (97.83 %), Precision de 0.9714, Recall de 0.9855 y F1-score de 0.9784, con solo 3 errores sobre 138 imágenes evaluadas (2 falsos positivos y 1 falso negativo), manteniendo un AUC cercano a 0.93. Además, en una validación externa independiente (200 imágenes de CUB-200-2011 y MS-COCO), obtuvo Accuracy de 0.945, Precision de 0.901, Recall de 1.000, F1-score de 0.948 y AUC de 0.997, lo que respalda la capacidad de generalización del método. En conjunto, este trabajo busca aportar un enfoque práctico y fundamentado para la detección automática de aves en imágenes, con potencial de aplicación en escenarios reales de monitoreo ambiental, conservación de la biodiversidad y análisis ecológico asistido por computadora. (Texto tomado de la fuente)Bird observation and monitoring play a fundamental role in the study and conservation of biodiversity, as these species act as sensitive indicators of environmental change. However, reliably detecting birds from images remains a challenging task. Birds may appear in highly diverse scenarios, ranging from dense forests and open natural landscapes to urban environments dominated by human-made structures. In addition to this contextual diversity, factors such as variations in lighting, the small size of many species, partial occlusions, and visual similarity to the background further complicate automatic detection using conventional methods. In recent years, machine learning techniques—and particularly Deep Learning models—have demonstrated significant potential for addressing complex computer vision problems. Nevertheless, in real-world environmental monitoring applications, important challenges remain related to model robustness, generalization across different environments, and the balance between accuracy and computational cost. In this context, there is a growing need for approaches that do not rely on a single model, but instead combine different perspectives of visual analysis to achieve more reliable decisions. This work is framed within this need and presents a Machine Learning–based method for bird detection in images from both natural and non-natural environments. The proposed approach is based on a two-stage complementary strategy. In the first stage, the entire image is broadly analyzed to locate regions that may contain birds, using an object detector of the YOLO (You Only Look Once) family, specifically the YOLOv8n version. In the second stage, these candidate regions are examined in greater detail using a binary convolutional neural network, whose purpose is to confirm or reject the presence of a bird. This division of the process makes it possible to take advantage of the speed and coverage of the initial detector while reinforcing the reliability of the final decision. For the development and evaluation of the method, images from the bird subset of the Open Images V7 dataset were used, balanced between natural and non-natural contexts. In order to coherently integrate the information provided by both models, their probabilistic outputs are calibrated and combined into a single prediction per image using an ensemble scheme. This integration is designed to promote system stability in visually complex scenarios, reduce errors in challenging cases, and maintain consistent performance across different types of environments. The evaluation of the method follows a reproducible protocol and relies on metrics widely accepted in the literature, enabling a systematic analysis of system behavior and comparison with relevant approaches reported in previous studies. The results show that combining a broad localization stage with a subsequent verification step improves the robustness of the detection process and offers an appropriate balance between result quality and computational efficiency. Quantitatively, in the main validation stage, the Bidirectional Gating ensemble achieved an Accuracy of 0.9783 (97.83%), Precision of 0.9714, Recall of 0.9855, and an F1-score of 0.9784, with only 3 errors over 138 evaluated images (2 false positives and 1 false negative), while maintaining an AUC close to 0.93. In addition, in an independent external validation (200 images from CUB-200-2011 and MS-COCO), the system obtained an Accuracy of 0.945, Precision of 0.901, Recall of 1.000, an F1-score of 0.948, and an AUC of 0.997, supporting the method’s generalization capability. Overall, this work aims to contribute a practical and well-founded approach for automatic bird detection in images, with potential applications in real-world environmental monitoring, biodiversity conservation, and computer-assisted ecological analysis.1 recurso en línea [81 páginas]application/pdfspahttp://creativecommons.org/licenses/by/4.0/000 - Ciencias de la computación, información y obras generales::004 - Procesamiento de datos Ciencia de los computadores000 - Ciencias de la computación, información y obras generales::003 - SistemasMétodo para la detección de aves en espacios naturales y no naturales basado en técnicas de machine learningTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessAprendizaje automático (Inteligencia artificial)Procesamiento de imágenesAvesAvesYoloCNN híbridaProcesamiento de imágenesBirdshybrid CNNImage processingMétodo para a detecção de aves em espaços naturais e não naturais baseado em técnicas de machine learningMethod for bird detection in natural and non-natural environments based on machine learning techniques