Analyse haute performance de masses de données; application à la détection d'anomalie dans le contexte de la gestion d'identité et d'accès
Auteur / Autrice : | Mamadou Abdoulaye Diop |
Direction : | Nahid Emad Petiton |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 10/12/2021 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’informatique parallélisme réseaux algorithmes distribués (Saint-Quentin en Yvelines, Yvelines ; 2015-....) |
référent : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....) | |
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....) | |
Jury : | Président / Présidente : Marc Baboulin |
Examinateurs / Examinatrices : Vassil Alexandrov, Tetsuya Sakurai, Mathilde Mougeot, Maxime Hugues, Leroy Anthony Drummond Lewis | |
Rapporteurs / Rapporteuses : Vassil Alexandrov, Tetsuya Sakurai |
Mots clés
Résumé
La protection des données est une question essentielle en matière de cybersécurité. Les organisations utilisent les logiciels de gestion des identités et des accès et les outils de cybersécurité traditionnels pour protéger leurs actifs informationnels contre les menaces externes. Cependant, elles manquent le plus souvent de solutions pour contrer les menaces internes provenant principalement des personnes ayant un accès légitime aux systèmes d'information de l'entreprise. Ce type de menaces est aujourd'hui la principale préoccupation des spécialistes de la cybersécurité. Les logiciels d'analyse du comportement des utilisateurs et des entités sont les outils utilisés par les cyber-spécialistes pour contrer efficacement les menaces internes. Cependant, les solutions existantes peuvent présenter des problèmes tels qu'un nombre élevé de fausse alarme, et un temps de préparation des modèles de détection conséquent quand les données d'activités sont de gros volumes.L'objectif de cette thèse est de contribuer à remédier à ces problèmes par la proposition d’une solution algorithmique et sa mise en œuvre efficace pour les architectures haute performance. Plus particulièrement, nous proposons une méthode de détection qui construit des profileurs de comportement en utilisant des techniques issues des domaines de l’apprentissage automatique, de l'algèbre linéaire et du calcul haute performance. Cette méthode est définie par l’application de l’approche "unir et conquérir" utilisée en algèbre linéaire, aux techniques d'apprentissage d'ensemble. En plus des méthodes d'apprentissage de base classiques, nous intégrons des méthodes innovantes de type PageRank et auto-encodeurs dans la méthode globale proposée. Cette nouvelle méthode de détection des menaces internes montre, selon nos expérimentations, une efficacité en termes de précision, allant jusqu’à 98% d'AUC. Ceci marque une augmentation significative par rapport aux méthodes de bases. Nous proposons aussi une mise en œuvre de cette méthode selon plusieurs paradigmes de programmation parallèle permettant d’obtenir des accélérations jusqu’au 10.Nous avons intégré cette plateforme logicielle agrémentée de moyens de prétraitement de données, et d'un système d'alarme dans un module global de détection d'attaque internes, capable d'étendre des outils de cybersécurité.