Generación de series de tiempo financieras sintéticas para "data augmentation" usando redes neuronales generativas adversarias (GAN)
Archivos
Autores
Villarraga Ossa, Edwin Fernando
Director
Villa Garzón, Fernán Alonso
Tipo de contenido
Trabajo de grado - Maestría
Idioma del documento
EspañolFecha de publicación
2021-03-24
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
Los modelos GAN se han usado de forma exitosa para realizar aumento de datos en
problemas relacionados con imágenes, audio y video, pues logran representar
adecuadamente las propiedades de los datos reales, pero incorporando suficiente
diversidad en los datos sintéticos generados como para poder mejorar el
desempeño de los modelos de machine learning y deep learning en las
evaluaciones por fuera de muestra. Las series de tiempo financieras se requieren
para la modelación y solución de problemas en finanzas, sin embargo, dada la
escasez de datos históricos, no solo originados por problemas de recolección de
datos, sino también porque una serie de tiempo es solamente la realización de un
proceso estocástico y por ende se presenta un sub muestreo. En este trabajo se
generaron series de tiempo sintéticas usando DCGAN y cCGAN para generar datos
de rendimientos, volúmenes, bid-ask spread, y precios con transformación
fraccional, de acciones de Estados Unidos de América, con periodicidad diaria e
intradiaria. Se pudo verificar que estos modelos GAN logran generar series
simuladas que representan adecuadamente las propiedades distribucionales de las
series históricas. Estas series sintéticas generadas pueden servir como insumo del
tipo data augmentation en modelos de machine learning y deep learning para
mejorar su desempeño con datos por fuera de muestra.
Abstract
GAN models have been used successfully as a data augmentation method applied
to problems related to images, audio and video, since they manage to adequately
represent the properties of the real data, but incorporating diversity in the synthetic
data generated in order to improve the out-of-sample performance of Machine
Learning and Deep Learning models. Financial time series are required for modeling
and solving problems in finance, however, given the scarcity of historical data, not
only caused by data collection problems, but also because a time series is the
realization of only one stochastic process and therefore a subsampling is presented.
In this work, synthetic time series were generated using DCGAN and cCGAN to
generate data on yields, volumes, bid-ask spread, and prices with fractional
transformation, of shares of the United States of America, with daily and intraday
periodicity. It was possible to verify that these GAN models manage to generate
simulated series that adequately represent the distributional properties of the
historical time series. These generated synthetic time series can serve as data
augmentation to machine learning and deep learning models to improve their
out-of-sample performance.