Thèse soutenue

Apprentissage de représentations et prédiction pour des séries-temporelles inter-dépendantes

FR  |  
EN
Auteur / Autrice : Jingwei Zuo
Direction : Karine Bennis-ZeitouniYehia Taher
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/05/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Données et algorithmes pour une ville intelligente et durable (Versailles ; 2015-...)
référent : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Antoine Cornuéjols
Examinateurs / Examinatrices : Angela Bonifati, Engelbert Mephu-Nguifo, Romain Tavenard
Rapporteurs / Rapporteuses : Angela Bonifati, Engelbert Mephu-Nguifo

Résumé

FR  |  
EN

Les séries temporelles sont un type de données endémique dans de nombreux domaines d'applications, telles que l'analyse financière, le diagnostic médical, la surveillance de l'environnement ou encore l'astronomie. Du fait de leur structure complexe, les séries temporelles amènent à de nouveaux défis dans le traitement et l'extraction de connaissances de ces données. La représentation des séries temporelles joue un rôle déterminant dans les méthodes d'apprentissage et les tâches de fouille de données. Cependant, peu de méthodes tiennent compte des interdépendances entre séries temporelles différentes. De plus, la fouille de séries temporelles nécessite de considérer non seulement les caractéristiques des séries temporelles en termes de complexité des données, mais également les contextes particuliers des applications et la tâche de fouille de données à effectuer. Cela nous permet de construire des représentations spécifiques à la tâche.Dans cette thèse, nous étudions différentes représentations de séries temporelles capables de s'adapter à diverses tâches de fouille de séries temporelles, tout en capturant les relations entre elles. Nous nous concentrons spécifiquement sur la modélisation des interdépendances entre séries temporelles lors de la construction des représentations, qui peuvent être la dépendance temporelle au sein de chaque source de données ou la dépendance inter-variable entre des sources de données différentes. En conséquence, nous étudions les séries temporelles collectées dans diverses applications sous différentes formes. Tout d'abord, pour tenir compte de la dépendance temporelle entre les observations, nous apprenons la représentation de série temporelle dans un contexte de flux dynamique, où la série temporelle est générée en continu à partir de la source de données. Quant à la dépendance inter-variable, nous étudions les séries temporelles multivariées (MTS) avec des données collectées à partir de plusieurs sources. Enfin, nous étudions le MTS dans le contexte de la ville intelligente, où chaque source de données est associée à une localisation spatiale. Par conséquent, le MTS devient une série temporelle géo-localisée (GTS), pour laquelle la modélisation de la dépendance inter-variable requière la prise en compte de l'information spatiale sous-jacente. De ce fait, pour chaque type de séries temporelles collectées dans des contextes différents, nous proposons une méthode de représentation adaptée aux dépendances temporelles et/ou inter-variables.Outre la complexité des données provenant des interdépendances des séries temporelles, nous étudions diverses tâches d'apprentissage automatique sur des séries temporelles afin de valider les représentations apprises. Les tâches d'apprentissage étudiées dans cette thèse consistent en la classification de séries temporelles, l'apprentissage semi-supervisé de séries temporelles et la prévision de séries temporelles. Nous montrons comment les représentations apprises sont exploitées dans ces différentes tâches et pour des applications distinctes.Plus précisément, nos principales contributions sont les suivantes. En premier lieu, nous proposons un modèle d'apprentissage dynamique de la représentation des séries temporelles dans le contexte du flux de données, où nous considérons à la fois les caractéristiques des séries temporelles et les défis des flux de données. Nous affirmons et démontrons que le motif de Shapelet, basé sur la forme, est la meilleure représentation dans le contexte dynamique. Par ailleurs, nous proposons un modèle semi-supervisé pour l'apprentissage de représentation dans les MTS. Ce modèle considère la dépendance inter-variable dans l'hypothèse réaliste où les annotations de données sont limitées. Enfin, nous proposons un modèle d'apprentissage de représentation de GTS dans le contexte de la ville intelligente. Nous étudions spécifiquement la tâche de prévision du trafic routier avec un focus sur le traitement intégré des valeurs manquantes.