Contribution en apprentissage automatique pour la maîtrise des risques

par Lassana Coulibaly

Thèse de doctorat en Mathématiques Appliquées

Sous la direction de Bernard Kamsu-Foguem et de Fana Tangara.

Le président du jury était Sylvie Le Hégarat.

Le jury était composé de Bernard Kamsu-Foguem, Fana Tangara, Mohamed Lemdani, Mamadou Mboup, Fabienne Lohou, Jules Sadefo Kamdem.

Les rapporteurs étaient Mohamed Lemdani, Mamadou Mboup.


  • Résumé

    Les changements climatiques entraînent régulièrement des phénomènes menaçant directement l'environnement et l'humanité. Dans ce contexte, la météorologie joue de plus en plus un rôle important dans la compréhension et la prévision de ces phénomènes. Le problème de fiabilisation des observations est essentiel pour le raisonnement numérique et la qualité de la simulation. En plus, l'interopérabilité est importante tant pour les entreprises que pour les services publics traitant des données et des modèles complexes découlant de ces observations. Dans les services météorologiques, la fiabilité des données d’observations est une exigence fondamentale. Les prévisions du temps et du climats sont dépendantes de nombreux phénomènes physiques à différentes échelles de temps et d’espace. Un de ces phénomènes est le transfert d’énergie de la surface vers l’atmosphère qui est considéré un paramètre sensible. Les observations des paramètres sensibles produisent souvent des données qui ne sont pas fiables (données imparfaites). Un meilleur traitement de ces données imparfaites pourra améliorer l’évaluation de la simulation. Nous proposons l'utilisation de méthodes d'apprentissage automatique susceptibles (i) d'améliorer l’évaluation des échanges entre la surface et l’atmosphère dans les modèles numériques de prévision du temps et du climat et (ii) de produire des connaissances pour l'interopérabilité. Cela peut appuyer la communication des services d'observation et les modèles numériques de prévision. L'objectif de ce travail est de diagnostiquer les modèles numériques de prévision pour chercher les faiblesses de ces modèles dans la simulation des échanges entre la surface et l'atmosphère. Ces échanges sont quantifiés par les flux de chaleur sensible et de chaleur latente. Dans un premier temps, la méthode d'extraction des règles d'association est choisie pour : mettre en évidence les faiblesses du modèle ; effectuer des comparaisons entre les observations effectuées et les simulations réalisées par le modèle numérique pour la détection des variables critiques. Dans un deuxième temps, des processus gaussiens tenant compte des incertitudes sont utilisés pour modéliser les valeurs mesurées afin de rendre la base de données d'observation plus fiable. Cette modélisation est réalisée par un processus d'apprentissage approfondi qui inclut la régression en intégrant les connaissances sur le terrain. Ensuite, un optimiseur a été défini à partir des propriétés sur les transformations géométriques par homothétie. Cet optimiseur permet d'effectuer un ajustement aux données simulées pour mettre à l’échelle le modèle. Ces méthodes sont déployées sur une base de données mesurées sur le site expérimental du Centre de Recherches Atmosphériques (CRA) qui est l'un des deux sites composant la Plateforme Pyrénéenne d'Observation de l'Atmosphère (P2OA) en France. Les résultats obtenus et exprimés sous forme de règles d'association ont permis de mettre en évidence des faiblesses dans les modèles numériques : d'abord, la mise en évidence des différences (erreurs) entre les observations et les simulations ; ensuite l'analyse des règles générées a montré que les différences importantes sur le rayonnement global sont souvent concomitantes à des différences importantes sur les flux de chaleur sensible et latente. Ceci est souvent dû à des perturbations naturelles (par exemple, emplacement des nuages) qui impactent la qualité des observations/ simulations des flux de chaleur sensible et chaleur latente. Les bénéfices escomptés sont relatifs à la génération de connaissances utiles à l'amélioration de la qualité de la simulation numérique des processus de surface. En plus, l'optimiseur proposé a donné des résultats satisfaisants. Les valeurs simulées ont été mises à l’échelle à 100% dans le cas des formes similaires et à 98% dans le cas des formes avec présence de pics. Cet optimiseur peut être appliqué à toutes les autres variables météorologiques.

  • Titre traduit

    Machine learning and mining of weather data


  • Résumé

    Climate change regularly causes phenomena that directly threaten the environment and humanity. In this context, meteorology is playing more and more an important role in the understanding and forecasting of these phenomena. The problems of reliability of the observations is essential for the numerical reasoning and the quality of the simulation. In addition, interoperability is important both for companies and for public services dealing with complex data and models. In meteorological services, the reliability of observational data is a fundamental requirement. Weather and climate predictions are dependent on many physical phenomena on different time and space scales. One of these phenomena is the transfer of energy from the surface to the atmosphere that is a sensitive parameter. Observations of sensitive parameters often produce data that are unreliable (imperfect data). A better treatment of these imperfect data may improve the evaluation of the simulation. We propose the use of machine learning methods that can : (i) improve the evaluation of surface-atmosphere exchanges in numerical weather and climate prediction models and (ii) produce knowledge for interoperability. This can support the communication of observation services and numerical prediction models. The objective of this work is to diagnose numerical prediction models in order to look for the weaknesses of these models in the simulation of exchanges between the surface and the atmosphere. These exchanges are quantified by sensible and latent heat fluxes. In a first instance, Gaussian processes taking into account uncertainties are used to model the measured values in order to make the observational database more reliable. This modelling is carried out through a thorough learning process that includes regression by integrating field knowledge. Then the extraction method of the association rules is chosen in order to : highlight the weaknesses of the model ; make comparisons between the observations made and the simulations made by the numerical model. Finally, an optimizer has been defined from some properties on geometric transformations in mathematics. This optimizer makes it possible to perform an adjustment to the simulated data in order to minimize simulation errors. These methods are deployed on a measured data base on the experimental site of the Centre de Recherches Atmosphériques (CRA) which is one of the two sites making up the Pyrénéenne Plateforme d'Observation de l'Atmosphère (P2OA) in France. The results obtained and expressed in the form of association rules have made it possible to highlight certain weaknesses in the numerical models : first, the highlighting of differences (errors) between the observations and the simulations ; then the analysis of the generated rules showed that important differences on global radiation are often concomitant with important differences on sensible and latent heat fluxes. This is often due to natural disturbances (e.g. cloud location) that impact the quality of observations/simulations of sensible and latent heat fluxes. The expected benefits are related to the generation of useful knowledge to improve the quality of numerical simulation of surface processes. In addition, the proposed optimizer gave satisfactory results. The simulated values were scaled to 100% in the case of similar shapes and to 98% in the case of shapes with peaks. This optimizer can be applied to all other meteorological variables.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national polytechnique. Service commun de la documentation.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.