Requêtes itératives et expressives pour l’analyse de grandes séries de données
Auteur / Autrice : | Anna Gogolou |
Direction : | Anastasia Bezerianos |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 15/11/2019 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de recherche en informatique (Orsay, Essonne ; 1998-2020) |
établissement opérateur d'inscription : Université Paris-Sud (1970-2019) | |
Jury : | Président / Présidente : Jean-Daniel Fekete |
Examinateurs / Examinatrices : Anastasia Bezerianos, Jean-Daniel Fekete, Christophe Hurter, Pierre-François Marteau, Themis Palpanas, Marco Patella, Theophanis Tsandilas, Yvonne Jansen | |
Rapporteurs / Rapporteuses : Christophe Hurter, Pierre-François Marteau |
Mots clés
Résumé
Les séries temporelles deviennent omniprésentes dans la vie moderne et leur analyse de plus en plus difficile compte tenu de leur taille. L’analyse des grandes séries de données implique des tâches telles que l’appariement de modèles (motifs), la détection d’anomalies, l’identification de modèles fréquents, et la classification ou le regroupement (clustering). Ces tâches reposent sur la notion de similarité. La communauté scientifique a proposé de plusieurs techniques, y compris de nombreuses mesures de similarité pour calculer la distance entre deux séries temporelles, ainsi que des techniques et des algorithmes d’indexation correspondants, afin de relever les défis de l’évolutivité lors de la recherche de similarité.Les analystes, afin de s’acquitter efficacement de leurs tâches, ont besoin de systèmes d’analyse visuelle interactifs, extrêmement rapides, et puissants. Lors de la création de tels systèmes, nous avons identifié deux principaux défis: (1) la perception de similarité et (2) la recherche progressive de similarité. Le premier traite de la façon dont les gens perçoivent des modèles similaires et du rôle de la visualisation dans la perception de similarité. Le dernier point concerne la rapidité avec laquelle nous pouvons redonner aux utilisateurs des mises à jour des résultats progressifs, lorsque les temps de réponse du système sont longs et non interactifs. Le but de cette thèse est de répondre et de donner des solutions aux défis ci-dessus.Dans la première partie, nous avons étudié si différentes représentations visuelles (Graphiques en courbes, Graphiques d’horizon et Champs de couleur) modifiaient la perception de similarité des séries temporelles. Nous avons essayé de comprendre si les résultats de recherche automatique de similarité sont perçus de manière similaire, quelle que soit la technique de visualisation; et si ce que les gens perçoivent comme similaire avec chaque visualisation s’aligne avec différentes mesures de similarité. Nos résultats indiquent que les Graphes d’horizon s’alignent sur des mesures qui permettent des variations de décalage temporel ou d’échelle (i.e., ils promeuvent la déformation temporelle dynamique). En revanche, ils ne s’alignent pas sur des mesures autorisant des variations d’amplitude et de décalage vertical (ils ne promeuvent pas des mesures basées sur la z-normalisation). L’inverse semble être le cas pour les Graphiques en courbes et les Champs de couleur. Dans l’ensemble, nos travaux indiquent que le choix de la visualisation affecte les schémas temporels que l’homme considère comme similaires. Donc, la notion de similarité dans les séries temporelles est dépendante de la technique de visualisation.Dans la deuxième partie, nous nous sommes concentrés sur la recherche progressive de similarité dans de grandes séries de données. Nous avons étudié la rapidité avec laquelle les premières réponses approximatives et puis des mises à jour des résultats progressifs sont détectées lors de l’exécuton des requêtes progressives. Nos résultats indiquent qu’il existe un écart entre le moment où la réponse finale s’est trouvée et le moment où l’algorithme de recherche se termine, ce qui entraîne des temps d’attente gonflés sans amélioration. Des estimations probabilistes pourraient aider les utilisateurs à décider quand arrêter le processus de recherche, i.e., décider quand l’amélioration de la réponse finale est improbable. Nous avons développé et évalué expérimentalement une nouvelle méthode probabiliste qui calcule les garanties de qualité des résultats progressifs de k-plus proches voisins (k-NN). Notre approche apprend d’un ensemble de requêtes et construit des modèles de prédiction basés sur deux observations: (i) des requêtes similaires ont des réponses similaires; et (ii) des réponses progressives renvoyées par les indices de séries de données sont de bons prédicteurs de la réponse finale. Nous fournissons des estimations initiales et progressives de la réponse finale.