Thèse soutenue

Contributions à la détection et au classement de discordes à longueur variables appliquées auxdonnées issues de modèles climatiques

FR  |  
EN
Auteur / Autrice : Hussein El khansa
Direction : Carmen Gervet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 19/12/2022
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : ESPACE-DEV (Montpellier)
Jury : Examinateurs / Examinatrices : Carmen Gervet, Slim Abdennadher, François Rioult, Maguelonne Teisseire, Reza Akbarinia, Arnaud Soulet
Rapporteurs / Rapporteuses : Slim Abdennadher, François Rioult

Résumé

FR  |  
EN

L'analyse de données climatiques est un domaine d'étude très actuel face aux défis de changement climatique. L'extraction de motifs anormaux, qui peuvent fournir des informations sur les changements de cycle qui se produisent sur une certaine période, nous intéresse particulièrement. Pour ce faire, cette thèse étudie l'application de techniques d'apprentissage automatique pour détecter et classer des motifs anormaux à longueur variable, appelés discordes, sur des séries temporelles de données climatiques.L'un des principaux défis dans la détection des discordes est le réglage de la longueur ou de la durée des motifs recherchés. Ce paramètre peut entraîner un biais dans le processus d'analyse des données. L'approche que nous proposons consiste à considérer des motifs de longueur variable su rune très grande fenêtre d'observation de séries de données spatio-temporelles. En termes de méthodologie, nous considérons une structure de données de pointe qu’est la Matrix Profile qui bénéficie d'un algorithme exact et efficace, sans optimisation des paramètres avancés. L'application d’algorithmes permettant de calculer la Matrix Profile pour des séquences de longueur variable, pose deux problèmes principaux : 1) la production d’un très grand nombre de discordes, 2) l'extraction de discordes a priori non comparables compte tenu de leurs différentes longueurs.Cette thèse propose une double contribution pour classer les discordes de durée variable vers une quête de discordes qui sont les plus pertinentes pour un domaine d’étude. Nous définissons ce que nous entendons par pertinentes dans le domaine de l'analyse des données climatiques. Tout d' abord, nous spécifions un ordre de subsomption et calculons puis classons les discordes selon cet ordre de pertinence sur des séquences de longueur variable extraites de larges séries temporelles. Nous proposons une seconde approche, qui est une intégration hybride de modèles de Matrix Profile avec des méthodes de détection de points d’anomalies. Ces dernières méthodes sont utilisées pour fournir un mécanisme alternatif au premier de classement de discordes à longueur variable. Enfin, une évaluation expérimentale de nos approches sur les données climatiques est réalisée pour chaque approche afin d'évaluer leur apport en termes d'efficacité et de pertinence dans le champ thématique d'étude.