Thèse soutenue

Améliorer la détection d’intrusions dans les systèmes répartis grâce à l’apprentissage fédéré

FR  |  
EN
Auteur / Autrice : Léo Lavaur
Direction : Yann Busnel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 07/10/2024
Etablissement(s) : Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur et le numérique
Partenaire(s) de recherche : Laboratoire : Self-prOtecting The futurE inteRNet - Département Systèmes Réseaux, Cybersécurité et Droit du numérique - Institut de recherche en informatique et systèmes aléatoires (Rennes)
Jury : Président / Présidente : Vincent Nicomette
Examinateurs / Examinatrices : Yann Busnel, Anne-Marie Kermarrec, Éric Totel, Sonia Ben Mokhtar, Pierre-François Gimenez, Marc-Oliver Pahl, Fabien Autrel
Rapporteur / Rapporteuse : Anne-Marie Kermarrec, Éric Totel

Résumé

FR  |  
EN

La collaboration entre les différents acteurs de la cybersécurité est essentielle pour lutter contre des attaques de plus en plus nombreuses et sophistiquées. Pourtant, les organisations sont souvent réticentes à partager leurs données, par peur de compromettre leur confidentialité ou leur avantage concurrentiel, et ce même si cela pourrait améliorer leurs modèles de détection d’intrusions. L’apprentissage fédéré est un paradigme récent en apprentissage automatique qui permet à des clients répartis d’entraîner un modèle commun sans partager leurs données. Ces propriétés de collaboration et de confidentialité en font un candidat idéal pour des applications sensibles comme la détection d’intrusions. Si un certain nombre d’applications ont montré qu’il est, en effet, possible d’entraîner un modèle unique sur des données réparties de détection d’intrusions, peu se sont intéressées à l’aspect collaboratif de ce paradigme. Dans ce manuscrit, nous étudions l’utilisation de l’apprentissage fédéré pour construire des systèmes collaboratifs de détection d’intrusions. En particulier, nous explorons(i) l’impact de la qualité des données dans des contextes hétérogènes, (ii) l’exposition à certains types d’attaques par empoisonnement,et (iii) des outils et des méthodologies pour améliorer l’évaluation de ce type d’algorithmes.