Modelo para la predicción de patrones de deforestación en el departamento de Antioquia empleando aprendizaje de máquinas
Cargando...
Autores
Gómez Ossa, Luisa Fernanda
Tipo de contenido
Document language:
Español
Fecha
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
Los cambios en coberturas y usos del suelo (CCUS) son especialmente importantes en áreas estratégicas para la provisión de servicios ecosistémicos de los cuales depende la población. Modelos espacialmente explícitos se han desarrollado para facilitar el monitoreo de patrones de deforestación, sin embargo, implementar estos modelos continúa siendo uno de los problemas más difíciles de abordar, esto se debe a que la deforestación es un proceso que se caracteriza por su alta complejidad, dinamismo y no linealidad. Dada esta dificultad y las diferentes aproximaciones metodológicas, el uso conjunto de técnicas de aprendizaje de máquinas (Machine Learning - ML) y sistemas de información geográfica (SIG) es uno de los enfoques más prometedores para modelar el problema específico de la evolución del uso del suelo. A nivel nacional y latinoamericano son pocos los estudios en los cuales se ha empleado ML para modelar CCUS a partir de imágenes satelitales de alta resolución espacial (<10m). Esta investigación con el uso de imágenes del programa NICFI (Norway’s International Climate & Forests Initiative) a una resolución de 4.7m desarrolló un modelo para la clasificación de coberturas y para la predicción de patrones de deforestación en el departamento de Antioquia, área que se caracteriza por su topografía montañosa y diversidad de ecosistemas. La metodología se llevó a cabo en tres etapas, la primera corresponde a un modelo de aprendizaje profundo (Deep Learning - DL) para la segmentación de coberturas, cuyos resultados se usaron como insumo en la segunda etapa de construcción de variables geográficas y explicativas del proceso de deforestación. Finalmente, la tercera etapa corresponde al modelo de predicción de deforestación. Para el modelo de segmentación de coberturas se usó un enfoque supervisado con la arquitectura U-Net y se exploraron 2 metodologías para el etiquetado de los datos, una a partir del uso de mapas globales existentes y otra con apoyo del algoritmo Kmeans y digitalización manual. Los conjuntos de datos se encuentran disponibles en formato TIF (Tagged Image File Format) con cuatro bandas R (rojo), G (verde), B (Azul), NIR (Infrarrojo cercano) y la etiqueta correspondiente a las coberturas: bosques denso, arbustales, pastos, áreas agrícolas heterogéneas, cuerpos de agua, áreas construidas y tierras desnudas y degradadas. Para la exploración y entrenamiento de los modelos tipo U-Net se construyeron 4 conjuntos de datos, para el primero se usó una estrategia de muestreo aleatorio, para el segundo y tercero una estrategia de muestreo balanceado, donde cada sección de imagen del conjunto de datos tiene una representación mínima por clase de 50% y 70% respectivamente y para el conjunto de datos 4 se usó un muestreo balanceado de 70% y se incluyeron datos multitemporales digitalizados de forma manual. Para la etapa 2, la selección y construcción de las variables explicativas se realizó con base en la metodología PRISMA, la disponibilidad de datos geográficos y las capas de coberturas generadas del modelo de segmentación. En total se construyeron 10 variables explicativas y la variable dependiente binaria (deforestado/no deforestado) para el periodo de análisis 2018-2019 y se usó el método de bosques aleatorios con el criterio de permutación para identificar la importancia relativa de las variables en el proceso de deforestación. En la etapa 3 se propone el desarrollo de un modelo covolucional con la arquitectura U-Net con atención para la predicción de la deforestación y al igual que en la etapa 1 de segmentación de coberturas, se entrenaron varios modelos empleando diferentes estrategias de muestreo para tratar el desbalance extremo de los datos. Finalmente se realizó una comparación de los resultados obtenidos para la métrica F1 macro entre las arquitecturas U-Net con atención, U-Net-estandar y U-Net residual con atención, encontrando mejores resultados en el rendimiento global del modelo con la arquitectura propuesta. La investigación representa en Colombia el primer intento a gran escala de utilizar un modelo DL para la predicción de la deforestación y el mapeo de coberturas a partir de imágenes satelitales de alta resolución espacial. Además de los modelos propuestos, el trabajo ofrece nuevos enfoques metodológicos para el manejo de datos espaciales que presentan desafíos distintos a otros tipos de datos y que tienen un potencial significativo para avanzar en el área de ML. (Tomado de la fuente)
Abstract
Land Cover and Land Use Changes (LCLUC) are particularly important in strategic areas for the provision of ecosystem services on which the population depends. Spatially explicit models have been developed to facilitate the monitoring of deforestation patterns. However, implementing these models remains one of the most challenging issues to address. This is due to the fact that deforestation is a process characterized by high complexity, dynamism, and non-linearity. Given this difficulty and the various methodological approaches, the combined use of Machine learning (ML) techniques and geographic information systems (GIS) is one of the most promising approaches for modeling the specific issue of land use change. At both the national and Latin American levels, there are few studies in which ML has been used to model LCLUC based on high spatial resolution satellite imagery (<10m). This research, using images from the NICFI (Norway’s International Climate Forests Initiative) program at a resolution of 4.7m, developed a model for land cover classification and deforestation pattern prediction in the department of Antioquia, a region characterized by its mountainous topography and diverse ecosystems. The methodology was carried out in three stages. The first stage involved a deep learning (DL) model for land cover segmentation, whose results were used as input for the second stage, which focused on constructing geographic and explanatory variables related to the deforestation process. Finally, the third stage focused on the development of the deforestation prediction model. For the land cover segmentation model, a supervised approach was used with the U-Net architecture, and two methodologies for data labeling were explored: one based on the use of existing global maps and another supported by the K-means algorithm and manual digitization. The datasets are available in TIF (Tagged Image File Format) with four bands—R (red), G (green), B (blue), and NIR (near infrared)—and include the corresponding labels for land covers: dense forests, shrublands, pastures, heterogeneous agricultural areas, water bodies, built-up areas, and bare and degraded lands. For the exploration and training of the U-Net models, four datasets were constructed. The first dataset used a random sampling strategy, while the second and third employed a balanced sampling strategy, in which each image section in the dataset contains a minimum class representation of 50% and 70%, respectively. For the fourth dataset, a 70% balanced sampling approach was used, and manually digitized multitemporal data were included. For Stage 2, the selection and construction of explanatory variables were carried out 16 Abstract based on the PRISMA methodology, the availability of geographic data, and the land cover layers generated by the segmentation model. A total of 10 explanatory variables were constructed, along with a binary dependent variable (deforested / not deforested) for the 2018–2019 analysis period. The random forest method with permutation importance was used to identify the relative importance of the variables in the deforestation process. In Stage 3, the development of a convolutional model using the U-Net architecture with attention is proposed for deforestation prediction. As in Stage 1 (land cover segmentation), several models were trained using different sampling strategies to address the extreme data imbalance. Finally, a comparison of the results was carried out using the macro F1 score metric across the U-Net with attention, standard U-Net, and residual U-Net with attention architectures. The proposed architecture showed better overall model performance. This research represents the first large-scale attempt in Colombia to use a deep learning (DL) model for deforestation prediction and land cover mapping based on high spatial resolution satellite imagery. In addition to the proposed models, the study offers new methodological approaches for handling spatial data, which present challenges distinct from other types of data and hold significant potential to advance the field of machine learning.
Palabras clave propuestas
Descripción
Ilustraciones, gráficos, mapas