Échantillonnage de motifs fréquents dans flux de données à haut débits sur achitectures FPGA
Auteur / Autrice : | Maël Gueguen |
Direction : | Olivier Sentieys, Alexandre Termier |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 23/10/2020 |
Etablissement(s) : | Rennes 1 |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) |
Partenaire(s) de recherche : | Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Rennes, Bretagne-Atlantique) - CAIRN - LACODAM |
Equipe de recherche : CAIRN - LACODAM |
Mots clés
Résumé
Le domaine de recherche de motifs fréquents consiste à trouver tous les motifs récurrents dans une base de données à analyser. De nombreux algorithmes de recherche de motifs ont été proposés dans la littérature scientifique, mais la plupart d’entre eux souffrent du même problème : les résultats sont très volumineux et contiennent beaucoup de redondances, qui rendent les analyses difficiles. Une méthode appelée échantillonnage de l’espace de sortie a récemment été introduite. Cette méthode consiste à retourner un échantillon réduit, avec des contraintes statistiques qui permettent d’assurer sa représentativité. Dans un contexte où réagir aux tendances en temps réel est devenu un enjeu important, une analyse sur un échantillon en temps réel peut l’emporter sur une analyse exhaustive hors-ligne. Pour permettre de réaliser en temps réel les calculs coûteux de la recherche de motifs fréquents, cette thèse propose des solutions reposant sur des architectures matérielles dédiées, plus efficaces en temps et énergie que les serveurs classiques. La première contribution de cette thèse est un accélérateur matériel pour la recherche de motifs fréquents basé sur une architecture FPGA. La solution que nous proposons permet une plus grande modularité de l’accélérateur, tout en réduisant l’allocation de mémoire nécessaire, une ressource restreinte sur ce type d’architecture. Cette première contribution apporte d’une part des avancées algorithmiques, pour permettre de rendre l’exploration de l’espace de recherche suffisamment régulière pour une exécution efficace sur FPGA, et d’autre part, par une proposition d’architecture FPGA apte à gérer des transferts de données importants avec la mémoire. La deuxième contribution étend l’approche précédente, qui était restreinte à des jeux de données statiques, à des flux de données. Cela demande de revoir les bases théoriques de l’approche d’échantillonnage utilisé, car les valeurs de l’échantillon doivent dans ce cas refléter à la fois l’état instantané du flux, mais aussi les tendances importantes du passé proche.