Modelos generativos: Generación de audio en bioacustica
Type
Trabajo de grado - Maestría
Document language
InglésPublication Date
2024Metadata
Show full item recordSummary
Este estudio aborda el desafío de la disponibilidad limitada y la baja calidad de datos de audio en bioacústica, centrándose específicamente en la generación de croares realistas de la rana Boana faber. Proponemos un enfoque novedoso utilizando modelos probabilísticos de difusión, una potente técnica de aprendizaje profundo para la síntesis de audio. Debido a las demandas computacionales de estos modelos, implementamos un proceso de selección sistemático basado en la Distancia de Incepción de Fréchet (FID) y la agrupación K-medias para identificar un subconjunto de muestras generadas de alta calidad de un grupo más amplio. Evaluamos las muestras de audio generadas a través de un experimento de percepción humana en formato de pruebas A/B. Los resultados demuestran que nuestro modelo entrenado genera croares convincentes de Boana faber, incluso con un entrenamiento truncado, destacando el potencial del modelo para generar datos bioacústicos realistas. Este enfoque ofrece posibilidades prometedoras para mejorar los conjuntos de datos existentes y mejorar el rendimiento de los sistemas automatizados de monitoreo de la biodiversidad (Texto tomado de la fuente)Abstract
This study addresses the challenge of limited and low-quality audio data in bioacoustics, specifically focusing on the generation of realistic frog croaks for the species Boana faber. We propose a novel approach using diffusion probabilistic models, a powerful deep learning technique for audio synthesis. Due to the computational demands of these models, we implement a systematic selection process based on Fréchet Inception Distance (FID) and K-means clustering to identify a subset of high-quality generated samples from a larger pool. We evaluated the generated audio samples through a human perception experiment in an A/B testing format. The results demonstrate that our trained model generates convincing Boana faber croaks, even with truncated training, highlighting the model’s potential for generating realistic bioacoustic data. This approach offers promising possibilities for improving existing datasets and improving the performance of automated biodiversity monitoring systems.Keywords
Physical description
ilustraciones, diagramas, fotografías, tablas
Collections
