Thèse soutenue

Régression de données fonctionnelles avec prédiction et interprétabilité : inférence de propriétés en chimiométrie avec des moindres carrés partiels sparse (PLS)

FR  |  
EN
Auteur / Autrice : Louna Alsouki
Direction : Clément MarteauRami El HaddadLaurent Duval
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 15/06/2023
Etablissement(s) : Lyon 1 en cotutelle avec Université Saint-Joseph (Beyrouth)
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche : Laboratoire : Institut Camille Jordan (Rhône ; 2005-....)
Jury : Président / Présidente : Sophie Lambert-Lacroix
Examinateurs / Examinatrices : Rasmus Bro, Hervé Cardot, Caroline Chaux, Gabriela Ciuperca
Rapporteurs / Rapporteuses : Sophie Lambert-Lacroix, Rasmus Bro

Résumé

FR  |  
EN

La chimie analytique joue un rôle crucial dans divers domaines car elle couvre l'identification, la quantification et la caractérisation des substances chimiques. Elle est essentielle pour comprendre la composition et le comportement de la matière et pour développer de nouveaux matériaux et de nouvelles technologies. Il peut s'agir notamment du pétrole, partie intégrante de la vie moderne, utilisé comme source d'énergie et matière première pour toute une série de produits. Il s'agit d'un ensemble d'hydrocarbures qui doivent être raffinés à l'aide de technologies efficaces pour produire des produits plus légers et réduire les impuretés. Leurs propriétés physicochimiques sont essentielles pour les processus de raffinage, de transport et de stockage et peuvent influencer la qualité des produits dérivés. Cependant, leur extraction est coûteuse et nécessite de nombreuses ressources. La spectroscopie est une méthode d'analyse rapide largement utilisée qui exploite les propriétés physico-chimiques des produits, en utilisant un profil de signal représenté par des données fonctionnelles. Toutefois, la précision de la spectroscopie peut être moindre et les résultats peuvent ne pas être aussi complets que ceux des méthodes normalisées. Les techniques de chimiométrie permettent de créer un modèle prédictif pour chaque propriété à l'aide de spectres d'analyse rapide. Elles permettent d'atteindre deux objectifs principaux : prédire les propriétés physico-chimiques de nouveaux mélanges à partir de mélanges de référence et fournir des informations supplémentaires sur les parties les plus liées du signal. Les techniques d'étalonnage multivarié établissent une relation mathématique entre les données fonctionnelles obtenues à partir des mesures physico-chimiques X et les propriétés macroscopiques numériques traditionnelles y. La régression linéaire est utilisée pour établir la relation entre les deux. X étant hautement dimensionnel, la régression classique par MCO n'est pas applicable et des techniques de réduction sont utilisées. Un compromis entre précision et simplification est donc nécessaire pour traiter les problèmes de données à haute dimension. Cette thèse utilise des données réelles pour prédire la densité des coupes pétrolières à l'aide de spectres infrarouges. Ces données ont été fournies par IFPEN et rendues publiques pour une étude scientifique plus approfondie. Ce manuscrit inclut également des données simulées générées à l'aide de mélanges gaussiens et de relations linéaires parcimonieuses afin de tester les hypothèses et d'évaluer la précision et l'interprétabilité des prédictions. Une procédure d'évaluation a été établie, comprenant un algorithme de calibration-validation appelé CalValXy, qui sélectionne les observations e calibration en utilisant à la fois les informations X et Y. Des métriques ont été utilisées pour évaluer la similarité entre les observations et les données de calibration. Des métriques ont été utilisées pour évaluer la similarité de la calibration avec les données globales et la précision des prédictions. La thèse se concentre également sur l'interprétabilité des résultats en détectant des informations à l'aide d'indicateurs de parcimonie, qui se réfèrent à la présence d'un nombre relativement faible de coefficients non nuls dans le modèle. Les techniques de réduction des dimensions dans l'analyse des données comprennent la projection (comme PLS) et les méthodes pénalisées (comme lasso). Une nouvelle approche appelée Dual sparse Partial Least Squares a été développée, qui combine les avantages des deux techniques pour améliorer l'interprétabilité et la précision des modèles de prédiction. La méthode utilise une norme duale de pénalités sélectionnées et nos études en suggèrent quatre. Un test comparatif a montré que l'approche fournissait une meilleure interprétation avec une prédiction précise. Cette méthode a également été mise en œuvre dans un package R appelé dual.spls.