Thèse soutenue

Appariement de graphes et données massives : approche par décomposition, compression et échantillonnage

FR  |  
EN
Auteur / Autrice : Abd Errahmane Kiouche
Direction : Hamida Seba LagraaKarima Amrouche
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/11/2021
Etablissement(s) : Lyon en cotutelle avec Ecole Nationale Supérieure d'Informatique (ESI) - Alger
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône)
établissement opérateur d'inscription : Université Claude Bernard (Lyon ; 1971-....)
Jury : Président / Présidente : Karima Benatchba
Examinateurs / Examinatrices : Hamida Seba Lagraa, Karima Amrouche, Abdelkamel Tari, Radu State, Mohand Saïd Hacid
Rapporteurs / Rapporteuses : Abdelkamel Tari, Radu State

Résumé

FR  |  
EN

Les graphes sont des structures mathématiques constituées de sommets et d'arêtes représentant les liens ou connexions entre les sommets du graphe. A cause de leurs puissantes propriétés, les graphes sont utilisés pour modéliser les données dans de nombreuses applications du monde réel : sociologie, transport, réseaux informatiques, biologie, chimio-informatique, traitement d'images, etc. Dans beaucoup de ces applications, il y a un besoin crucial d'une mesure quantitative précise et rapide représentant la similarité entre les graphes. Cependant, le calcul d'une telle similarité dans des temps réduits est un problème difficile pour deux principales raisons. Premièrement, la taille et le nombre de graphes augmentent de manière exponentielle et continue, et il est de plus en plus courant de trouver de grands graphes partout. Deuxièmement, avec l'apparition des graphes dynamiques dans plusieurs applications du monde réel, le nombre de comparaisons requises à effectuer entre les graphes a considérablement augmenté. Dans cette thèse, nous étudions les différentes stratégies et mécanismes qui permettent d'accélérer et de simplifier la comparaison de graphes dans différents domaines d’application. L'objectif principal est de proposer de nouvelles représentations et mesures de similarité entre les graphes qui s'appliquent aux grands graphes. Les stratégies et mécanismes étudiés sont : la comparaison de graphes dans le modèle de flux de données, la décomposition de grands graphes pour pouvoir les comparer, la simplification de graphes par compression, échantillonnage ou plongement. Les résultats de cette thèse consistent en trois contributions : La première, est basée sur un nouveau plongement de graphes incrémental utilisé pour la comparaison de graphes dans le modèle de flux (streaming). Ce plongement est basé sur la décomposition de graphes en sous-structures et sur la distance d'édition de graphes. Le principal avantage de cette approche est qu'elle est rapide et permet de mettre à jour de manière incrémentale et rapide les vecteurs de graphes dans le modèle de flux. Dans notre deuxième contribution, nous proposons une nouvelle mesure de dissimilarité qui s'appuie sur le mécanisme de sparsification de graphes et sur un nouveau plongement de nœuds qui capture le voisinage topologique. Le rôle du mécanisme de sparsification est de réduire le nombre de nœuds dans les graphes géométriques et ainsi réduire le temps de comparaison. Nous avons appliqué cette approche de comparaison au problème de reconnaissance de formes 2D représentées par des graphes. Notre troisième contribution est une nouvelle méthode de compression pour les grands graphes qui préserve une proportion des voisins de chaque nœud du graphe. L'objectif principal de ce travail est de simplifier les grands graphes tout en préservant autant de propriétés de voisinage des sommets que possible afin d'accélérer le temps de comparaison des graphes. Cette compression s'est avérée très utile dans de nombreuses applications où la comparaison de graphes est requise. Nous avons implémenté les approches et mené des tests et des expérimentations approfondis sur divers jeux de données dérivés de nombreuses applications pour montrer l'efficacité des mécanismes employés dans l’accélération et la simplification de la comparaison de graphes.