Desarrollo de un modelo de Machine Learning para pronosticar productividad agrícola
Cargando...
Director
Tipo de contenido
Editor
Document language:
Español
Fecha
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
El pronóstico del rendimiento agrícola busca anticipar decisiones que de otro modo se tomarían a ciegas o demasiado tarde, por parte de productores, agentes del mercado y/o responsables de política pública. En particular, permite tomar mejores decisiones de siembra, manejo, comercialización y diseño de políticas antes de que la cosecha ocurra, por tanto, adquiere especial relevancia en un contexto donde el clima es variable y es deseable reducir los márgenes de error en las decisiones agrícolas. Dado lo anterior, la estimación anticipada del rendimiento se ha consolidado como un insumo fundamental para la planificación productiva, la gestión de riesgos climáticos y la toma de decisiones en política alimentaria. Su importancia se acentúa al considerar que un grupo reducido de cultivos básicos (entre ellos el trigo, el maíz y la soya) concentra una proporción sustancial del consumo calórico mundial, lo que convierte a sus rendimientos en un determinante significativo de la seguridad alimentaria global.
El objeto de este trabajo final de maestría es la estimación de rendimiento agrícola mediante aprendizaje profundo y datos climáticos de alta resolución. Al integrar series temporales semanales de variables meteorológicas (temperatura, precipitación, humedad, radiación solar, suma térmica y estrés térmico) con registros agrícolas a nivel de condado, el modelo permite identificar patrones climático-productivos relevantes a lo largo del ciclo de cultivo. La metodología sigue el marco CRISP-DM, con énfasis en la ingeniería de características climáticas agregadas que actúan como proxies de condiciones fenológicas relevantes, la normalización específica por cultivo y una división temporal estratificada por año, con la meta de garantizar una evaluación realista y libre de fugas de datos.
Se prioriza la interpretabilidad y escalabilidad mediante el uso de datos estructurados y accesibles, sin recurrir a imágenes satelitales en un principio. Se propone una arquitectura basada en GRU y Atención Multi-Cabeza que procesa secuencias climáticas semanales y las combina con un embedding de cultivo para modelar dinámicas fisiológicas específicas por especie. Este diseño permite especializar los resultados sin duplicar completamente la red, mejorando eficiencia y capacidad de generalización.
Constituye una exploración experimental de modelos secuenciales para el pronóstico de rendimiento agrícola, destacando patrones temporales aprendidos y su relación con momentos críticos del ciclo de cultivo. No se afirma que el modelo sea superior en todos los escenarios, ni que sustituya otros enfoques, sino que ofrece una opción basada en datos climáticos estructurados y arquitecturas interpretables.
El enfoque propuesto permite transicionar de un sistema de nowcasting (estimación post-cosecha) a uno de forecasting (pronóstico operativo con anticipación), mediante la definición de horizontes predictivos específicos por cultivo, derivados del análisis de los picos de atención. Los resultados se evaluaron con métricas que incluyen el coeficiente de determinación (R²), el error absoluto medio (MAE), el Error Porcentual Absoluto Medio Simétrico (SMAPE), y la proporción de estimaciones que caen dentro del 10 %, 15 % y 20 % del valor real a nivel de cultivo (una medida de precisión operativa útil para agricultores y entidades de planificación), demostrando su utilidad práctica potencial para la toma de decisiones en agricultura de precisión.
Los modelos logran un desempeño competitivo (con coeficientes de correlación de Pearson entre 0.68 y 0.76 en el forecaster, R² de hasta 0.67 en el nowcaster y tasas de acierto superiores al 52 % dentro del 15 % de error relativo en escenarios operativos), y además identifica posibles patrones temporales significativos, reflejados en picos de atención que ocurren en intervalos típicos de desarrollo del cultivo, sin requerir anotaciones fenológicas adicionales.
Las estimaciones obtenidas podrían utilizarse como apoyo en la identificación de años con rendimientos atípicos o en el análisis de la sensibilidad climática a lo largo del ciclo. A diferencia de algunos enfoques basados en teledetección, este modelo utiliza series temporales completas de variables meteorológicas, evitando interrupciones por cobertura nubosa. El mecanismo de atención permite examinar qué semanas tuvieron mayor influencia en cada pronóstico, lo que facilita un análisis cualitativo del comportamiento del modelo. (Texto tomado de la fuente)
Abstract
Agricultural yield forecasting aims to anticipate decisions that would otherwise be made blindly or
too late,by producers, market participants and policy makers. In particular, it enables better decisions regarding planting, management, marketing, and policy design before the harvest takes place.
Therefore, it takes on special relevance in a context where the climate is variable and it is desirable
to reduce the margins of error in agricultural decisions. For this reason, advanced yield estimation
has established itself as a fundamental input for production planning, climate risk management, and
decision-making in food policy. Its importance is underscored by the fact that a small group of staple
crops (including wheat, corn, and soybeans) accounts for a substantial proportion of global caloric
consumption, making their yields a significant determinant of global food security.
The objective of this master’s thesis is to estimate agricultural yields using deep learning and highresolution climate data. By integrating weekly time series of meteorological variables (temperature,
precipitation, humidity, solar radiation, heat summation, and heat stress) with county-level agricultural records, the model allows to identify relevant climate-production patterns throughout the crop
cycle. The methodology follows the CRISP-DM framework, focusing on the engineering of aggregated climate features as proxies for relevant phenological conditions, crop-specific normalization, and
a year-stratified temporal split that prevents data leakage.
Interpretability and scalability are prioritized through the use of structured and accessible data, without
initially relying on satellite imagery. A Gated Recurrent Unit (GRU) and Multi-Head Attention-based
architecture is proposed to process weekly climate sequences and combine them with a crop embedding to model species-specific physiological dynamics. This design enables specialization without
fully duplicating the network, improving efficiency and generalization capacity.
Constitutes an experimental exploration of sequential models for agricultural yield forecasting, highlighting learned temporal patterns and their relationship to critical moments in the crop cycle. It is
not claimed that the model is superior in all scenarios or that it replaces other approaches, but rather
that it offers an option grounded in structured climate data and interpretable architectures.
This approach enables a transition from a nowcasting system (post-harvest estimation) to a forecasting system (operational forecasting with lead time), by defining crop-specific prediction horizons
derived from the analysis of attention peaks. The results were evaluated using metrics including the
coefficient of determination (R2
), mean absolute error (MAE), symmetric mean absolute percentage error (SMAPE), and the proportion of estimates falling within 10 %, 15 %, and 20 % of the true value (a
measure of operational accuracy useful for farmers and planning entities) at the crop level, demonstrating its potential practical utility for decision-making in precision agriculture.
The models achieve competitive performance (with Pearson correlation coefficients between 0.68
and 0.76 in the forecaster,R2 up to 0.67 in the nowcaster, and hit rates above 52 % within 15 % relative
error in operational scenarios) and also identifies potential significant temporal patterns, reflected
in attention peaks occurring at typical crop development intervals, without requiring additional
phenological annotations.
The estimates could support the identification of years with atypical yields or the analysis of climate
sensitivity across the growing season. Unlike some remote sensing-based approaches, this model uses
complete meteorological time series, avoiding gaps due to cloud cover. The attention mechanism
allows inspection of which weeks most influenced each forecast, facilitating qualitative analysis of
model behavior.
Palabras clave propuestas
Pronóstico del rendimiento agrícola; Crop yield forecasting; Aprendizaje automático en agricultura; Machine learning in agriculture; Atención multi-cabeza; Multi-head attention; GRU (unidades recurrentes cerradas); GRU (Gated recurrent unit); Interpretabilidad en IA; AI interpretability; Detección de periodos fenológicos críticos; Critical phenological period detection; Modelado sin fechas de siembra; Planting-date-free modeling
Descripción
ilustraciones, diagramas, tablas

