Recherche de similarité de longueur variable pour l’analyse de grandes séries temporelles : appariement de séquences, recherche de motifs et anomalies
Auteur / Autrice : | Michele Linardi |
Direction : | Themis Palpanas |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 21/08/2019 |
Etablissement(s) : | Sorbonne Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique Paris Descartes (LIPADE) |
établissement de préparation : Université Paris Descartes (1970-2019) | |
Jury : | Président / Présidente : Johann Gamper |
Examinateurs / Examinatrices : Johann Gamper, Panagiotis Papapetrou, Élisa Fromont, Ioana Ileana | |
Rapporteurs / Rapporteuses : Johann Gamper, Panagiotis Papapetrou |
Résumé
Les séries de données ou série chronologique (suite de valeurs numériques représentant l’évolution d’une quantité) sont devenues l’un des types de données les plus importants et les plus populaires, omniprésents dans presque tous les domaines scientifiques. Au cours des deux dernières décennies, mais de manière encore plus évidente au cours de cette dernière période, l’intérêt porté à ce type de données s’accroît rapidement. La raison en est principalement due aux récents progrès des technologies de détection, de mise en réseau, de traitement de données et de stockage, qui ont considérablement aidé le processus de génération et de collecte de grandes quantités de séries de données. La recherche de similarité de séries de données est devenue une opération fondamentale au cœur de plusieurs algorithmes d’analyse et applications liées aux collections de séries de données. De nombreuses solutions à différents problèmes d’exploration de données, telles que le regroupement (clustering), la mise en correspondance des sous-séquences (subsequence matching), l’imputation des valeurs manquantes (imputation of missing values), la découverte de motifs (motif discovery) et la détection d’anomalies (discord discovery) sont basés sur l’utilisation de la recherche de similarité. À cet égard, toutes les solutions sur mesure pour les problèmes susmentionnés nécessitent la connaissance préalable de la longueur de la série, sur laquelle une recherche de similarité est effectuée. Dans ce scénario, l’utilisateur doit connaître la longueur des résultats attendus, ce qui est souvent une hypothèse irréaliste. Cet aspect est donc très important. Dans plusieurs cas, la longueur est un paramètre critique qui influence sensiblement la qualité du résultat final. En détail, nous avons noté que les index de séries de données permettent d’effectuer une recherche de similarité rapide. Néanmoins, tous les index existants ne peuvent répondre qu’aux requêtes d’une seule longueur (fixées au moment de la construction de l’index), ce qui constitue une limite sévère. Dans cette thèse, nous proposons d’abord ULISSE, le premier index de série de données conçue pour répondre aux requêtes de recherche de similarité de longueur variable. Notre contribution est double. Premièrement, nous introduisons une nouvelle technique de représentation, qui résume efficacement et succinctement plusieurs séquences de différentes longueurs. Sur la base de l’index proposé, nous décrivons des algorithmes efficaces pour la recherche de similarité approximative et exacte, combinant des visites d’index sur disque et des analyses séquentielles en mémoire. Notre approche prend en charge les séquences non normalisées et normalisées, et peut être utilisée sans modification avec la distance Euclidienne et la déformation temporelle dynamique (DTW), pour répondre aux requêtes de type : κ-NN et ε-range. Nous évaluons notre approche de manière expérimentale en utilisant plusieurs jeux de données synthétiques et réels. Les résultats montrent que ULISSE s’est révélé de nombreuse fois plus efficace en termes de coût d’espace et de temps, par rapport aux approches concurrentes. Par la suite, nous introduisons un nouveau framework, qui fournit un algorithme de recherche exacte de motifs (séquences fréquentes) et d’anomalies, qui trouve efficacement tous les motifs et les anomalies de tailles différentes. L’évaluation expérimentale que nous avons effectuée sur plusieurs ensembles de données réelles montre que nos approches sont jusqu’à des ordres de grandeur plus rapides que les alternatives. Nous démontrons en outre que nous pouvons supprimer la contrainte irréaliste d’effectuer des analyses en utilisant une longueur prédéfinie, ce qui conduit à des résultats plus intuitifs et exploitables, qui auraient autrement été manqués.