Contributions à une efficiente classification non-supervisée de réseaux et de graphes
Auteur / Autrice : | Chakib Fettal |
Direction : | Mohamed Nadif |
Type : | Thèse de doctorat |
Discipline(s) : | Science des données |
Date : | Soutenance le 02/02/2024 |
Etablissement(s) : | Université Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Centre Borelli (Gif-sur-Yvette, Essonne ; 2020-...) |
Entreprise : CDC Informatique (1976-....) | |
Jury : | Président / Présidente : Christophe Marsala |
Examinateurs / Examinatrices : Ndèye Niang-Keita | |
Rapporteurs / Rapporteuses : Philippe Lenca, Sébastien Adam |
Mots clés
Résumé
Les graphes sont des structures de données relationnelles très utiles dans de nombreux domaines car ils constituent un outil puissant pour la modélisation et l'analyse de systèmes complexes. Ils sont utilisés pour représenter les relations entre les entités, comme les individus dans un réseau social ou les nœuds dans un réseau informatique. Les graphes ont été utilisés dans diverses applications et dans différents domaines, tels que l'analyse des réseaux sociaux, la bioinformatique, l'épidémiologie et bien d'autres encore. Dans l'analyse des réseaux sociaux, par exemple, les graphes peuvent être utilisés pour étudier les modèles d'interactions entre les individus dans un réseau social et également pour identifier les groupes d'individus ayant des intérêts ou des comportements similaires. Cela peut particulièrement être utile pour le marketing ou les recommandations ciblées. Le partitionnement (classification non supervisée ou clustering) de graphes, également connu sous le nom de détection de communautés, est une technique importante dans l'analyse des données de graphes. Il permet d'identifier des groupes de nœuds similaires dans le graphe. Cela peut révéler des motifs et des structures sous-jacents dans le graphe qui ne sont pas immédiatement apparents. Par exemple, dans un réseau social, le clustering peut révéler des groupes d'individus ayant des intérêts ou des comportements similaires, et en bioinformatique, il peut révéler des modules fonctionnels dans les réseaux d'interaction protéine-protéine. Cette thèse vise à résoudre les problèmes de scalabilité des modèles de clustering de graphes de l'état de l'art et présente des approches nouvelles pour le clustering et l'apprentissage de représentations de différents types de graphes, y compris les graphes classiques, les graphes bipartis, les graphes attribués, les graphes attribués bipartis et les graphes attribués multi-vues. À cette fin, nous exploitons des approches classiques telles que les projections linéaires, le lissage laplacien et le transport optimal. Les approches proposées partagent toutes trois caractéristiques clés: simplicité, efficacité et parcimonie. Grâce à leur nature simple mais efficace, les méthodes proposées sont compétitives par rapport à l'état de l'art tout en étant généralement plus efficaces en termes de calcul. Nous démontrons l'efficacité et l'efficience de nos modèles par rapport à l'état de l'art par le biais d'une expérimentation approfondie et de tests de significativité statistique.