Reconocimiento 4.0 InternacionalHernandez-Romero, Freddy RolandoGomez Jaramillo, Francisco AlbeiroÑungo Manrique, Jose Sebastián2025-03-112025-03-112024https://repositorio.unal.edu.co/handle/unal/87632ilustraciones, diagramas, fotografías, tablasEste estudio aborda el desafío de la disponibilidad limitada y la baja calidad de datos de audio en bioacústica, centrándose específicamente en la generación de croares realistas de la rana Boana faber. Proponemos un enfoque novedoso utilizando modelos probabilísticos de difusión, una potente técnica de aprendizaje profundo para la síntesis de audio. Debido a las demandas computacionales de estos modelos, implementamos un proceso de selección sistemático basado en la Distancia de Incepción de Fréchet (FID) y la agrupación K-medias para identificar un subconjunto de muestras generadas de alta calidad de un grupo más amplio. Evaluamos las muestras de audio generadas a través de un experimento de percepción humana en formato de pruebas A/B. Los resultados demuestran que nuestro modelo entrenado genera croares convincentes de Boana faber, incluso con un entrenamiento truncado, destacando el potencial del modelo para generar datos bioacústicos realistas. Este enfoque ofrece posibilidades prometedoras para mejorar los conjuntos de datos existentes y mejorar el rendimiento de los sistemas automatizados de monitoreo de la biodiversidad (Texto tomado de la fuente)This study addresses the challenge of limited and low-quality audio data in bioacoustics, specifically focusing on the generation of realistic frog croaks for the species Boana faber. We propose a novel approach using diffusion probabilistic models, a powerful deep learning technique for audio synthesis. Due to the computational demands of these models, we implement a systematic selection process based on Fréchet Inception Distance (FID) and K-means clustering to identify a subset of high-quality generated samples from a larger pool. We evaluated the generated audio samples through a human perception experiment in an A/B testing format. The results demonstrate that our trained model generates convincing Boana faber croaks, even with truncated training, highlighting the model’s potential for generating realistic bioacoustic data. This approach offers promising possibilities for improving existing datasets and improving the performance of automated biodiversity monitoring systems.vii, 26 páginasapplication/pdfenghttp://creativecommons.org/licenses/by/4.0/510 - Matemáticas::519 - Probabilidades y matemáticas aplicadasModelos generativos: Generación de audio en bioacusticaTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessModelos GenerativosBioacuáticaModelos de DifusiónGenerative ModelsBioacusticsDiffusion ModelsGenerative models: Audio generation in bioacousticsbioacousticsbioacústicaFréchet inception distanceDistancia de inicio de Fréchetk-means clusteringk-medias