Représentations symboliques de séries temporelles
Auteur / Autrice : | Sylvain Combettes |
Direction : | Laurent Oudre, Charles Truong |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques aux interfaces |
Date : | Soutenance le 08/01/2024 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Centre Borelli |
référent : Ecole Normale Supérieure Paris-Saclay | |
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....) | |
Jury : | Président / Présidente : Mathilde Mougeot |
Examinateurs / Examinatrices : Germain Forestier, Romain Tavenard, Themis Palpanas, Patrick Schäfer | |
Rapporteurs / Rapporteuses : Germain Forestier, Romain Tavenard |
Résumé
Les objectifs de cette thèse sont de définir de nouvelles représentations symboliques et des mesures de distance adaptées aux séries temporelles pouvant être multivariées et non-stationnaires. De plus, elles doivent préserver l'information temporelle, être interprétables et rapides à calculer. Nous passons en revue les représentations symboliques de séries temporelles, ainsi que les mesures de distance sur séries temporelles, chaînes de caractères et séquences symboliques (qui résultent d'un processus de symbolisation).Nous proposons deux contributions: ASTRIDE pour un ensemble de séries temporelles univariées, et d_{symb} pour un ensemble de séries temporelles multivariées. Nous avons également développé le d_{symb} playground, un outil interactif en ligne permettant aux utilisateurs d'appliquer d_{symb} à leurs données téléversées. ASTRIDE et d_{symb} sont pilotées par les données, car elles utilisent la détection de ruptures pour l'étape de segmentation, puis des quantiles ou un partitionnement par les K-moyennes pour l'étape de quantification. Enfin, elles appliquent la distance d'édition générale avec des coûts personnalisés entre les séquences symboliques obtenues.Nous montrons les performances d'ASTRIDE, comparé à 4 autres représentations symboliques, sur des tâches de reconstruction, et lorsque cela s'applique, sur des tâches de classification. Pour d_{symb}, les expériences montrent à quel point la symbolisation est interprétable. De plus, comparée à 9 distances élastiques sur une tâche de partitionnement, d_{symb} atteint des performances compétitives tout en étant plusieurs ordres de grandeur plus rapide.