Simulation de rendements agricoles à l'aide de modèles statistiques et d'apprentissage automatique. De la surveillance aux prévisions saisonnières et climatiques
Auteur / Autrice : | Thi Lan Anh Dinh |
Direction : | Filipe Aires |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du climat, de l'atmosphère et des océans, terrestres et planétaire |
Date : | Soutenance le 05/12/2022 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences de l'environnement d'Île-de-France (Paris ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’étude du rayonnement et de la matière en astrophysique et atmosphères (Paris ; 2002-2024) |
Jury : | Président / Présidente : Solène Turquety |
Examinateurs / Examinatrices : Frédérique Cheruy, Tamara Ben-Ari, Eric Rahn | |
Rapporteur / Rapporteuse : Erwan Personne, Christoph Gornott |
Mots clés
Mots clés contrôlés
Résumé
La météo et le climat ont un impact important sur les rendements agricoles. De nombreuses études basées sur différentes approches ont été réalisées pour mesurer cet impact. Cette thèse se concentre sur les modèles statistiques pour mesurer la sensibilité des cultures aux conditions météorologiques sur la base des enregistrements historiques. Lors de l'utilisation d'un modèle statistique, une difficulté critique survient lorsque les données sont rares, ce qui est souvent le cas pour la modélisation des cultures. Il y a un risque élevé de sur-apprentissage si le modèle n'est pas développé avec certaine précautions. Ainsi, la validation et le choix du modèle sont deux préoccupations majeures de cette thèse. Deux approches statistiques sont développées. La première utilise la régression linéaire avec régularisation et validation croisée (c.-à.-d. leave-one-out ou LOO), appliquée au café robusta dans la principale région productrice de café du Vietnam. Le café est une culture rémunératrice, sensible aux intempéries, et qui a une phénologie très complexe en raison de sa nature pérenne. Les résultats suggèrent que les informations sur les précipitations et la température peuvent être utilisées pour prévoir l'anomalie de rendement avec une anticipation de 3 à 6 mois selon la région. Les estimations du rendement du robusta à la fin de la saison montrent que les conditions météorologiques expliquent jusqu'à 36 % des anomalies de rendement historiques. Cette première approche de validation par LOO est largement utilisée dans la littérature, mais elle peut être mal utilisé pour de nombreuses raisons : elle est technique, mal interprétée et nécessite de l'expérience. Une alternative, l'approche “leave-two-out nested cross-validation” (ou LTO), est proposée pour choisir le modèle approprié, évaluer sa véritable capacité de généralisation et choisir la complexité du modèle optimale. Cette méthode est sophistiquée mais simple. Nous démontrons son applicabilité pour le café robusta au Vietnam et le maïs en France. Dans les deux cas, un modèle plus simple avec moins de prédicteurs potentiels et d'entrées est plus approprié. Utiliser uniquement la méthode LOO peut être très trompeur car cela encourage à choisir un modèle qui sur-apprend les données de manière indirecte. L'approche LTO est également utile dans les applications de prévision saisonnière. Les estimations de rendement du maïs en fin de saison suggèrent que les conditions météorologiques peuvent expliquer plus de 40 % de la variabilité de l'anomalie de rendement en France. Les impacts du changement climatique sur la production de café au Brésil et au Vietnam sont également étudiés à l'aide de simulations climatiques et de modèles d'impact ou “suitability models”. Les données climatiques sont cependant biaisées par rapport au climat réel. De nombreuses méthodes de “correction de biais” (appelées ici “calibration”) ont été introduites pour corriger ces biais. Une présentation critique et détaillée de ces calibrations dans la littérature est fournie pour mieux comprendre les hypothèses, les propriétés et les objectifs d'application de chaque méthode. Les simulations climatiques sont ensuite calibrées par une méthode basée sur les quantiles avant d'être utilisées sur nos modèles d'impact. Ces modèles sont développés sur la base des données de recensement des zones caféières, et les variables climatiques potentielles sont basées sur un examen des études précédentes utilisant des modèles d'impact pour le café et des recommandations d'experts. Les résultats montrent que les zones propices à l'arabica au Brésil pourraient diminuer d'environ 26 % d'ici le milieu du siècle dans le scénario à fortes émissions, les régions compatibles avec la culture du robusta vietnamien pourraient quant à elle diminué d'environ 60 %. Les impacts sont significatifs à basse altitude pour les deux types de café, suggérant des déplacements potentiels de la production vers des endroits plus élevés.