Thèse soutenue

Apprentissage automatique pour la détection d’anomalies dans les graphes issus des données réseau
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Kévin Hoarau
Direction : Étienne PayetPierre Ugo TournouxTahiry Razafindralambo
Type : Thèse de doctorat
Discipline(s) : Informatique/Mathématiques
Date : Soutenance le 29/09/2022
Etablissement(s) : La Réunion
Ecole(s) doctorale(s) : École doctorale Sciences, Technologies et Santé (Saint-Denis, La Réunion)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique et de mathématiques (Saint-Denis, Réunion)
Jury : Président / Présidente : Géraldine Texier
Examinateurs / Examinatrices : Emmanuel Lochin, Vania Conan
Rapporteurs / Rapporteuses : Géraldine Texier, Prométhée Spathis

Résumé

FR  |  
EN

L’analyse des réseaux, de leurs protocoles et applications est impactée par l’évolution rapide des méthodes d’apprentissage automatique. Par ailleurs, bien que les données de ce domaine d’application soient intrinsèquement liées aux représentations sous forme de graphe, ce sont des représentations tabulaires qui sont généralement utilisées par les techniques d’apprentissage automatique ce qui, par conséquent, ne permet pas de représenter toute la complexité de ces données. Cette thèse s’intéresse à l’exploitation des graphes des données réseau à l’aide de techniques d’apprentissage automatique. Il est notamment proposé d’intégrer et d’évaluer les avancées récentes dans le domaine des Graph Neural Networks (GNN). Le cadre applicatif retenu est celui de la détection d’anomalies dans le Border Gateway Protocol (BGP), protocole qui génère des graphes massifs et complexes dans lesquels les anomalies sont difficilement décelables. Ce protocole constitue l’épine dorsale de l’Internet ce qui justifie que ses anomalies aient été largement étudiées par la communauté, que ce soit via des règles expertes ou des méthodes d’apprentissageautomatique classiques. Un travail préalable identifie que contrairement aux principaux domaines d’application de l’apprentissage automatique, il n’y a pas de jeux de données de référence pour l’étude des anomalies BGP. En outre, la construction de ces derniers apparaît pénible et constitue un frein à la recherche dans ce domaine. Ainsi, BML, un outil pour la construction de jeu de données BGP est proposé. La première contribution de cette thèse met en exergue le fait que l’exploitation d’attributs extraits d’un graphe BGP permet d’y détecter une anomalie avec des performances conformes à l’état de l’art. C’est le cas pour les anomalies de grande échelle (accuracy de 88%) mais il permet également d’améliorer significativement les performances sur les anomalies de petite échelle (+18% d’accuracy). Dans une seconde contribution, la composante temporelle est intégrée par l’utilisation d’un réseau de neurones récurrent (RNN). À partir d’une séquence de graphes BGP, une série temporelle d’attributs est extraite puis consommée par ce modèle. Cependant, il apparaît que la perte d’information induite par l’extraction d’attributs du graphe BGP nuit aux performances. Dans une dernière contribution, ce problème est contourné par l’utilisation d’un GNN qui exploite directement les graphes sans étape préalable d’extraction d’attributs. Par construction, ce modèle offre également une granularité fine qui a permis de détecter une anomalie au niveau d’un AS avec une accuracy de 96% sur des évènements de grande échelle. À notre connaissance, il s’agit du premier modèle basé sur un GNN pour la détection d’anomalies BGP. Ces travaux ont mis en évidence la pertinence des représentations sous forme de graphe pour l’analyse des données issues de BGP. Néanmoins, les GNN ouvrent davantage de perspectives que celles étudiées dans cette thèse. Notamment, l’identification du nœud à l’origine d’une attaque ou encore la prédiction de l’impact d’une anomalie.