Techniques de segmentation adaptative pour une représentation efficace des séries temporelles
Auteur / Autrice : | Lamia Djebour |
Direction : | Florent Masseglia, Reza Akbarinia |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 13/09/2022 |
Etablissement(s) : | Université de Montpellier (2022-....) |
Ecole(s) doctorale(s) : | École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....) |
Jury : | Président / Présidente : Anne Laurent |
Examinateurs / Examinatrices : Florent Masseglia, Reza Akbarinia, Omar Boucelma, Thomas Guyet, Dennis Elliott Shasha | |
Rapporteurs / Rapporteuses : Omar Boucelma, Thomas Guyet |
Résumé
De nombreuses applications dans différents domaines génèrent des données de séries temporelles à un rythme croissant. Le flux continu de données émises peut concerner des activités personnelles (par exemple, au moyen de compteurs intelligents ou de prises connectées pour la consommation d’électricité ou d’eau) ou professionnelles (par exemple, pour la surveillance de l’activité cardiaque ou à travers les capteurs installés sur les plantes par les agriculteurs). Il en résulte une production de données volumineuses et complexes, généralement sous la forme de séries temporelles.Généralement, les bases de données de séries temporelles sont caractérisées par leur très grand volume. Par conséquent, il est difficile et inefficace d’exploiter directement les données de séries temporelles brutes sans avoir recours à la réduction de la dimensionnalité.Ce verrou motive l’étude de représentations représentations alternatives, plus courtes, qui résument les séries d’origine avec une perte d’information acceptable. Les comparaisons de séries temporelles qui se basent sur ces représentations sont alors approximatives, ce qui fait de la précision un enjeu majeur.Dans cette thèse, nous étudions le problème de la segmentation des séries temporelles avant qu’elles soient transformées en représentations symboliques. Pour cela, nous proposons des solutions de segmentation adaptative des séries temporelles en adoptant une taille de segment variable qui dépend de la distribution de ces séries. Ces méthodes réduisent de manière significative la perte d’information due aux découpages possibles dans les différentes étapes du calcul de la représentation, en particulier pour les ensembles de données dont les distributions sont non uniformes.Nous fournissons des garanties théoriques sur la borne inférieure des mesures de similitude entre séries temporelles, et nos résultats montrent que nos techniques peuvent améliorer considérablement la qualité de la représentation des séries temporelles.