Thèse soutenue

Fouille de sous-graphes fréquents dans les nuages

FR  |  
EN
Auteur / Autrice : Sabeur Aridhi
Direction : Engelbert Mephu-NguifoMondher Maddouri
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/11/2013
Etablissement(s) : Clermont-Ferrand 2 en cotutelle avec Université de Tunis El-Manar. Faculté des Sciences de Tunis (Tunisie)
Ecole(s) doctorale(s) : École doctorale des sciences pour l'ingénieur (Clermont-Ferrand)
Partenaire(s) de recherche : Equipe de recherche : Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes
Jury : Président / Présidente : Jérôme Darmont
Examinateurs / Examinatrices : Anne Laurent, Takeaki Uno, Mohamed Mohsen Gammoudi, Laurent D'Orazio
Rapporteurs / Rapporteuses : Anne Laurent, Takeaki Uno

Résumé

FR  |  
EN

Durant ces dernières années, l’utilisation de graphes a fait l’objet de nombreux travaux, notamment en bases de données, apprentissage automatique, bioinformatique et en analyse des réseaux sociaux. Particulièrement, la fouille de sous-graphes fréquents constitue un défi majeur dans le contexte de très grandes bases de graphes. De ce fait, il y a un besoin d’approches efficaces de passage à l’échelle pour la fouille de sous-graphes fréquents surtout avec la haute disponibilité des environnements de cloud computing. Cette thèse traite la fouille distribuée de sous-graphe fréquents sur cloud. Tout d’abord, nous décrivons le matériel nécessaire pour comprendre les notions de base de nos deux domaines de recherche, à savoir la fouille de sous-graphe fréquents et le cloud computing. Ensuite, nous présentons les contributions de cette thèse. Dans le premier axe, une nouvelle approche basée sur le paradigme MapReduce pour approcher la fouille de sous-graphes fréquents à grande échelle. L’approche proposée offre une nouvelle technique de partitionnement qui tient compte des caractéristiques des données et qui améliore le partitionnement par défaut de MapReduce. Une telle technique de partitionnement permet un équilibrage des charges de calcul sur une collection de machine distribuée et de remplacer la technique de partitionnement par défaut de MapReduce. Nous montrons expérimentalement que notre approche réduit considérablement le temps d’exécution et permet le passage à l’échelle du processus de fouille de sous-graphe fréquents à partir de grandes bases de graphes. Dans le deuxième axe, nous abordons le problème d’optimisation multi-critères des paramètres liés à l’extraction distribuée de sous-graphes fréquents dans un environnement de cloud tout en optimisant le coût monétaire global du stockage et l’interrogation des données dans le nuage. Nous définissons des modèles de coûts de gestion et de fouille de données avec une plateforme de fouille de sous-graphe à grande échelle sur une architecture cloud. Nous présentons une première validation expérimentale des modèles de coûts proposés.