Définition multivariée et multi-échelle d'états environnementaux par Machine Learning : caractérisation de la dynamique phytoplanctonique
Auteur / Autrice : | Kelly Grassi |
Direction : | Alain Lefebvre, Émilie Poisson, André Bigand |
Type : | Thèse de doctorat |
Discipline(s) : | Biologie de l'environnement, des populations, écologie |
Date : | Soutenance le 19/11/2020 |
Etablissement(s) : | Littoral |
Ecole(s) doctorale(s) : | École doctorale Sciences de la matière, du rayonnement et de l'environnement (Lille ; 1992-....) |
Partenaire(s) de recherche : | Entreprise : WeatherForce (Toulouse, France) |
Laboratoire : Laboratoire d'informatique, signal et image de la Côte d'Opale (Calais, Pas de Calais) - Laboratoire Environnement et Ressources (Boulogne-sur-Mer, Pas-de-Calais) - Laboratoire d'Informatique Signal et Image de la Côte d'Opale / LISIC | |
Jury : | Président / Présidente : François Cabestaing |
Examinateurs / Examinatrices : David Nérini, Véronique Creach, Pascal Claquin, Cédric Bacher | |
Rapporteurs / Rapporteuses : David Nérini, Véronique Creach |
Résumé
Les systèmes automatisés de mesures à haute fréquence (HF) déployés dans des écosystèmes contrastés sont censés permettre une meilleure compréhension de la dynamique de l'environnement (et du phytoplancton) en réponse aux pressions d'origine naturelle et anthropiques, ainsi que les effets directs et indirects des proliférations du phytoplancton nuisible pouvant conduire à des dysfonctionnements des écosystèmes. La compréhension de cette dynamique est également importante afin de proposer des indicateurs conformes aux objectifs des directives européennes et des conventions des mers régionales. Alors que les données basses fréquences (BF) continuent de livrer leurs secrets, la complexité des données HF (bases volumineuses, convexes, avec des données manquantes,...) rend leur exploitation difficile. Dans ce contexte, cette thèse a pour objectif de développer un système numérique Open Source basé sur plusieurs méthodes du Machine Learning. Ce système doit permettre (i) de définir des schémas de fonctionnement des efflorescences multi-sources et multi-échelles à partir de données multivariées, (ii) de disposer d'un système de prédiction et d'alerte, (iii) de pouvoir adapter en temps (quasi) réel les stratégies d'échantillonnage pour les besoins de l'Observation, de la Surveillance et de la Recherche. La mise en évidence d'états environnementaux favorables ou pas aux efflorescences algales permet de hiérarchiser les facteurs de contrôle et d'identifier des schémas de fonctionnements. Ainsi, cette thèse a été conduite en différentes phases. Tout d'abord, une étude exploratoire des différentes variables, sources et échelles de données et des sites d'études a permis de définit les spécificités de chaque environnement et d'appliquer une stratégie d'étude multicritères. Ensuite, une nouvelle méthode de classification adaptée aux problématiques écologiques et HF est développée : la Classification Spectrale Multi-Niveaux. Cette approche appliquée aux données de la station MAREL-Carnot (IR ILICO, SNO COAST-HF) a permis la description (au niveau biogéochimique et taxonomique) d'événements récurrents mais aussi extrêmes, dont la période peut être infra-hebdomadaire ou même horaire. En plus de la caractérisation par état, cette approche multicritères identifie des schémas relationnels (états pressions et réponses). Ainsi, elle met en évidence des schémas de succession des facteurs d'influences, et des communautés. Enfin, une comparaison des réponses du modèle de classification à d'autres bases de données (MAREL-Iroise et MesuRho) est présentée. Pour aller plus loin, la méthodologie proposée est étendue à la prédiction d'événements météorologiques à partir de réanalyses (prévisions ERA5) et à un cas d'étude spatialisé (campagne océanographique CGFS). Elle démontre des classes cohérentes avec les expertises et s'ouvre ainsi vers une variété d'applications.