Thèse soutenue

Représentations symboliques de séries temporelles

FR  |  
EN
Auteur / Autrice : Sylvain Combettes
Direction : Laurent OudreCharles Truong
Type : Thèse de doctorat
Discipline(s) : Mathématiques aux interfaces
Date : Soutenance le 08/01/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre Borelli
Référent : Ecole Normale Supérieure Paris-Saclay
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-….)
Jury : Président / Présidente : Mathilde Mougeot
Examinateurs / Examinatrices : Germain Forestier, Romain Tavenard, Themis Palpanas, Patrick Schäfer
Rapporteur / Rapporteuse : Germain Forestier, Romain Tavenard

Résumé

FR  |  
EN

Les objectifs de cette thèse sont de définir de nouvelles représentations symboliques et des mesures de distance adaptées aux séries temporelles pouvant être multivariées et non-stationnaires. De plus, elles doivent préserver l'information temporelle, être interprétables et rapides à calculer. Nous passons en revue les représentations symboliques de séries temporelles, ainsi que les mesures de distance sur séries temporelles, chaînes de caractères et séquences symboliques (qui résultent d'un processus de symbolisation).Nous proposons deux contributions: ASTRIDE pour un ensemble de séries temporelles univariées, et d_{symb} pour un ensemble de séries temporelles multivariées. Nous avons également développé le d_{symb} playground, un outil interactif en ligne permettant aux utilisateurs d'appliquer d_{symb} à leurs données téléversées. ASTRIDE et d_{symb} sont pilotées par les données, car elles utilisent la détection de ruptures pour l'étape de segmentation, puis des quantiles ou un partitionnement par les K-moyennes pour l'étape de quantification. Enfin, elles appliquent la distance d'édition générale avec des coûts personnalisés entre les séquences symboliques obtenues.Nous montrons les performances d'ASTRIDE, comparé à 4 autres représentations symboliques, sur des tâches de reconstruction, et lorsque cela s'applique, sur des tâches de classification. Pour d_{symb}, les expériences montrent à quel point la symbolisation est interprétable. De plus, comparée à 9 distances élastiques sur une tâche de partitionnement, d_{symb} atteint des performances compétitives tout en étant plusieurs ordres de grandeur plus rapide.