Thèse soutenue

L'indexation parallèle de séries de données et la recherche de similarité sur du matériel moderne

FR  |  
EN
Auteur / Autrice : Botao Peng
Direction : Themis Palpanas
Type : Thèse de doctorat
Discipline(s) : Sciences des données
Date : Soutenance le 10/07/2020
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique PAris DEscartes (Paris ; 1998)
Jury : Président / Présidente : Karine Bennis-Zeitouni
Examinateurs / Examinatrices : Karine Bennis-Zeitouni, Peng Wang, Panagiota FATOUROU, Talel Abdessalem, Salima Benbernou
Rapporteurs / Rapporteuses : Karine Bennis-Zeitouni, Peng Wang

Résumé

FR  |  
EN

La recherche de similarité de séries de données est une opération essentielle pour plusieurs applications dans de nombreux domaines. Cependant, les techniques de pointe ne parviennent pas à fournir les performances temporelles requises, que ce soit pour réaliser une exploration interactive des séries de données, ou simplement une analyse de grandes collections de données. Au cours de ma thèse, nous présentons les premières solutions d'indexation de séries de données conçues pour tirer parti intrinsèquement du matériel moderne, afin d'accélérer les temps de traitement de la recherche de similarité pour les données sur disque et en mémoire. En particulier, nous développons de nouveaux algorithmes utilisant les architectures SIMD (multi-core, multi-socket et Single Instruction Multiple Data), ainsi que des algorithmes adaptés pour l’utilisation des unités de traitement graphique (GPU). Nos expériences réalisées sur un panel de données synthétiques et réelles démontrent que nos approches sont d’ordres de grandeur plus rapides que les solutions de pointe utilisant les données enregistrées sur disque et en mémoire. Plus précisément, notre solution sur disque peut répondre à des requêtes de recherche de similitude exacte sur des ensembles de données de 100 Go en 15 secondes, et pour notre solution en mémoire en moins de 36 millisecondes, ce qui permet pour la première fois une exploration interactive de données en temps réel sur des grandes collections de séries de données.