Thèse en cours

Modèles d'apprentissage automatique pour la calibration des capteurs de polluants de l'air à faible coût

FR  |  
EN
Auteur / Autrice : Aymane Souani
Direction : Vincent Vigneron
Type : Projet de thèse
Discipline(s) : Sciences du traitement du signal et des images
Date : Inscription en doctorat le 15/04/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : IBISC - Informatique, BioInformatique, Systèmes Complexes
Equipe de recherche : SIAM : Signal, Image, AutoMatique
Référent : Université d'Évry-Val-d'Essonne (1991-....)
graduate school : Université Paris-Saclay. Graduate School Sciences de l'ingénierie et des systèmes (2020-....)

Résumé

FR  |  
EN

On peut observer depuis la COP21 un essor rapide des systèmes de mesures de polluants atmosphériques qui permettent, combinés avec le crowd-sourcing par exemple, de représenter spatialement la qualité de l'air [4]. Cette cartographie à l'initiative des acteurs traditionnels de la surveillance, des collectivités locales, en est à ses débuts. Elle pose néanmoins la question de l'exploitation de ces données, de leur incertitude et des possibilités offertes par les nouvelles technologies issues de l'intelligence artificielle (IA)pour les analyser, notamment par deep learning (DL) dans le cadre de la surveillance(réglementaire) de la qualité de l'air [2]. Elle questionne aussi la dérive des capteurs entre l'étalonnage, réalisé en laboratoire, et leur utilisation terrain. L'étalonnage de capteur est donc bien au coeur de l'objectif de cette thèse et non la prédiction des concentrations de polluants. Comment estimer, à partir d'une mesure x(t) =xt de concentration en NO2 par exemple, la concentration atmosphérique exacte ? Le problème, formulé ainsi, parait élémentaire. Cette concentration exacte que nous noterons x* est estimée par une fonction f telle que l'erreur quadratique soit aussi petite que possible. f est une fonction non-linéaire non paramétrique apprise à partir de données d'apprentissage D={xt, x*t}, t=1,…,T. Nous avons choisi de modéliser ces données par un modèle neuronal. Les modèles neuronaux apparaissent aujourd'hui comme des techniques à utiliser lorsqu'on a beaucoup de données et peu ou pas de théorie [1]. De nombreux paramètres peuvent influer sur l'écart mesuré par l'erreur quadratique. In fine, la précision de ces capteurs est relative et les incertitudes de mesure sont encore mal connues. Dans certaines situations bien définies, l'incertitude de mesure de ces appareils peut approcher le niveau des méthodes de mesure 'officielles'. L'environnement dans les stations de surveillance officielles est contrôlé, leurs instruments sont régulièrement contrôlés et les mesures sont soumises à des procédures de contrôle de qualité et d'étalonnage rigoureuses. Certains capteurs peuvent être sensibles aux conditions météorologiques (vitesse du vent, température, humidité) ou peuvent avoir des difficultés à distinguer les polluants. Même si une mesure est effectuée correctement, elle ne peut être représentative que pour une très petite zone. Nous traiterons trois problématiques originales dans ce sujet de thèse : 1. Tout d'abord, observons que deux phénomènes physiques opposés sont à l'œuvre quand il s'agit de mesurer des concentrations de polluants : (i) la très grande inertie des changements climatiques, (ii) la faible inertie des réactifs chimiques. La première est liée à un problème d'échelle et au comportement physico-chimique des polluants CO2, O3, CH4, etc. La seconde est lié au positionnement des sources ;elle dépend de la toxicité des polluants NO2, PMx, O3, SO2, . . . mais aussi de la sensibilité des réactifs chimiques. Comment rendre plus fiable l'étalonnage des capteurs en exploitant ces deux échelles simultanément ? Comment s'assurer que les valeurs prédites ne divergent pas des conditions réelles ? Des travaux approfondis sont nécessaires pour répondre à ces questions. 2. La figure 2a illustre une autre difficulté : les pics de pollution sont les seuls événements réellement importants dans le signal. Leur estimation doit être optimale. Or,on peut voir qu'ils sont rares (heureusement), ce qui rend leur estimation difficile car le modèle neuronal f est, statistiquement parlant, une espérance conditionnelle xt=E[y|xt] =f(xt;w), autrement dit une approximation. Il est plus difficile de prédire des événements peu représentés dans les données d'apprentissage. Le score R2 qui mesure la qualité de l'ajustement(x∗t, xt)est plutôt bon 'en moyenne' (Fig.2b), il masque cependant l'erreur d'estimation plus marquée commise sur les pics. Une solution consisterait à adapter la fonction coût en pénalisant les données en dessous de 10 ppb par exemple ou a introduire une contrainte sur les poids du réseau. 3. Nous avons tous en mémoire l'accident de l'usine chimique Lubrizol classée Seveso à Rouen, le 26 septembre 2019. La plupart des produits de combustion correspondaient à des dérivés du type CO, CO2, N, Cl, F et Br qui se recombinent en gaz toxiques, les plus courants étant des hydrocarbures sulfurés, des sources radioactives scellées, du pentasulfure de phosphore, toluène, éthylbenzène, xylène, etc. Les conditions atmosphériques et topologiques ont augmenté l'impact de l'épisode de pollution. Cependant la méconnaissance de la nature exacte des produits stockés pouvant brûler a été le principal facteur aggravant. Dans le cas de Lubrizol il fallut 18 jours pour identifier les additifs que l'usine produisait. Pourquoi ? Parce qu'aucun dispositif n'est capable à ce jour de remonter à la véritable source de pollution à partir des concentrations des produits de combustion, en combinant les informations provenant de plusieurs capteurs. Or, les accidents industriels de ce type (chimique, agrochimique, phytosanitaires, etc.) donnent habituellement lieu à desincendies qui émettront des effluents toxiques qui se disperseront dans l'atmosphère avec un impact direct sur l'homme et l'environnement. La solution consiste a résoudre un problème de classification (pas ou peu maîtrisé en génie des procédés) dans lequel les classes sont les sources de pollution possibles et les variables d'entrée les concentrations de polluants produit par la combustion [3]. Après la détection de la contamination, il est important d'identifier la source de pollution et son type pour soutenir les tentatives de correction. Les méthodes conventionnelles reposent généralement sur une analyse en laboratoire, qui nécessite un temps d'analyse long. Nous proposons une nouvelle méthode de classification des polluants, qui discrimine les pollutions en temps réel indépendamment de la concentration de ces polluants. La méthode proposée quantifie les similitudes ou les différences entre les réponses des capteurs à différents types de polluants. La performance de la méthode proposée sera évaluée à l'aide des données d'expériences en laboratoire et comparée à une méthode basée sur la classification. La robustesse de la méthode proposée sera évaluée à l'aide d'une analyse d'incertitude.