Thèse soutenue

Analyse Interpr ´etable et Causale pour des S´ eries Temporelles Multivariées

FR  |  
EN
Auteur / Autrice : Amin Dhaou
Direction : Erwan Le Pennec
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 04/07/2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre de mathématiques (Palaiseau, Essonne ; ....-2004) - Centre de Mathématiques Appliquées de l'Ecole polytechnique / CMAP
Jury : Président / Présidente : Rémi Flamary
Examinateurs / Examinatrices : Erwan Le Pennec, Marianne Clausel, Souhaib Ben Taieb, Erwan Scornet, Josselin Garnier, Emilie Devijver
Rapporteurs / Rapporteuses : Marianne Clausel, Souhaib Ben Taieb

Résumé

FR  |  
EN

Les avancées en intelligence artificielle ont permis le développement de modèles de plus en plus complexes permettant de résoudre de nombreuses tâches. Dans des domaine d'applications critiques tels que l'industrie ou la médecine, il s’avère nécessaire de proposer des modèles dit interprétables établissant clairement le mécanisme de décisions favorisant ainsi la comprehension de ces modèles et de leurs décisions par les utilisateurs, et par conséquent leur acceptation. Ces objectifs relèvent du domaine de l'Intelligence Artificielle eXplicable (XAI), qui connaît un intérêt croissant depuis quelques années.Les données de séries temporelles, qui mesurent l'évolution de variables au fil du temps, comme les relevés de capteurs, fournissent des informations précieuses sur le comportement des systèmes. En identifiant des structures dans ces données, nous pouvons comprendre les interactions entre les variables, améliorer la précision des prévisions et concevoir de meilleures stratégies d'intervention. Cette thèse étudie l'analyse de données de séries temporelles à haute dimension en se concentrant sur l'explication des déviations de systèmes par rapport à leur fonctionnement normal et sur la modélisation de la dynamique sous-jascente de systèmes permettant de prédire leur évolution.Ce travail a deux objectifs principaux. Le premier objectif est de développer un algorithme interprétable qui identifie les causes racines des comportements normaux et anormaux dans les données de séries temporelles. Diverses techniques sont utilisées pour identifier les causes racines, mais elles présentent des limites quant à leur capacité à traiter de grandes dimensions et à distinguer la causalité des corrélations.Une approche basée sur le concept de causalité de Granger [Granger 1988], qui extrait des relations interprétables et causales sous la forme de règles, a été développée pour remédier à ces limitations. L'algorithme qui en résulte est conçu pour traiter différents types de données (numériques, catégorielles), pour fournir aux utilisateurs des explications interprétables du problème et pour développer des règles prédictives permettant de désamorcer les phénomènes anormaux à l'avance.Le deuxième objectif vise à développer un modèle de prévision qui non seulement prédit les valeurs futures, mais extrait également la dynamique sous-jacente des séries temporelles influençant ces prédictions. Ce domaine appelé régression symbolique favorise la transparence pour les utilisateurs en expliquant le raisonnement du modèle. Les modèles de régression avec pénalisation parcimonieuse sont largement utilisés dans ce domaine pour leur capacité à apprendre des dynamiques complexes dans scénario de grande dimension. Néanmoins, leurs performances en matière de prévision peuvent être limitées, en particulier pour des données complexes et non linéaires. Pour y remédier, nous proposons une nouvelle approche qui combine la régression pénalisée et la correction des erreurs dans un cadre de prévision des séries temporelles afin d'améliorer l'apprentissage des dynamiques sous-jacentes. En outre, le modèle est conçu pour traiter des données de séries temporelles complexes et non linéaires.En atteignant ces objectifs, cette recherche a le potentiel d'améliorer de manière significative notre capacité à analyser et à comprendre les données de séries temporelles. Il en résultera de meilleures prévisions, une meilleure compréhension du système et le développement de stratégies d'intervention plus efficaces.