Modelos generativos: Generación de audio en bioacustica

Ñungo Manrique, Jose Sebastián

Modelos generativos: Generación de audio en bioacustica

Archivos

Final Thesis version (Corrected version) (4.62 MB)

Autores

Ñungo Manrique, Jose Sebastián

Director

Hernandez-Romero, Freddy Rolando
Gomez Jaramillo, Francisco Albeiro

Tipo de contenido

Trabajo de grado - Maestría

Document language:

Inglés

Fecha

2024

Documentos PDF

Resumen

Este estudio aborda el desafío de la disponibilidad limitada y la baja calidad de datos de audio en bioacústica, centrándose específicamente en la generación de croares realistas de la rana Boana faber. Proponemos un enfoque novedoso utilizando modelos probabilísticos de difusión, una potente técnica de aprendizaje profundo para la síntesis de audio. Debido a las demandas computacionales de estos modelos, implementamos un proceso de selección sistemático basado en la Distancia de Incepción de Fréchet (FID) y la agrupación K-medias para identificar un subconjunto de muestras generadas de alta calidad de un grupo más amplio. Evaluamos las muestras de audio generadas a través de un experimento de percepción humana en formato de pruebas A/B. Los resultados demuestran que nuestro modelo entrenado genera croares convincentes de Boana faber, incluso con un entrenamiento truncado, destacando el potencial del modelo para generar datos bioacústicos realistas. Este enfoque ofrece posibilidades prometedoras para mejorar los conjuntos de datos existentes y mejorar el rendimiento de los sistemas automatizados de monitoreo de la biodiversidad (Texto tomado de la fuente)

Abstract

This study addresses the challenge of limited and low-quality audio data in bioacoustics, specifically focusing on the generation of realistic frog croaks for the species Boana faber. We propose a novel approach using diffusion probabilistic models, a powerful deep learning technique for audio synthesis. Due to the computational demands of these models, we implement a systematic selection process based on Fréchet Inception Distance (FID) and K-means clustering to identify a subset of high-quality generated samples from a larger pool. We evaluated the generated audio samples through a human perception experiment in an A/B testing format. The results demonstrate that our trained model generates convincing Boana faber croaks, even with truncated training, highlighting the model’s potential for generating realistic bioacoustic data. This approach offers promising possibilities for improving existing datasets and improving the performance of automated biodiversity monitoring systems.

Palabras clave propuestas

Modelos Generativos; Bioacuática; Modelos de Difusión; Generative Models; Bioacustics; Diffusion Models

Descripción

ilustraciones, diagramas, fotografías, tablas

URI

https://repositorio.unal.edu.co/handle/unal/87632

Colecciones

Maestría en Ciencias - Matemática Aplicada

Página completa del ítem

Modelos generativos: Generación de audio en bioacustica

Archivos

Autores

Director

Tipo de contenido

Document language:

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Resumen

Abstract

Palabras clave propuestas

Descripción

Palabras clave

Citación

URI

Colecciones