Thèse en cours

L'intelligence artificielle au service de la cybersécurité

FR  |  
EN
Auteur / Autrice : Arshdeep Janjua
Direction : Maciej Korczynski
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 31/03/2024
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique de Grenoble
Equipe de recherche : DRAKKAR - Réseaux et Multimédia (ancien LSR)

Résumé

FR  |  
EN

En mettant particulièrement l'accent sur l'identification et la classification des domaines et des URL de phishing, le projet cherche à développer de nouvelles méthodes de détection et de classification des attaques et des comportements malveillants liés au DNS. Le projet vise à améliorer la précision et l'efficacité de la détection des entités malveillantes dans les données DNS en utilisant un large éventail de techniques d'apprentissage automatique (ML), y compris des méthodes traditionnelles supervisées et non supervisées telles que la régression logistique, la forêt aléatoire, l'analyse en composantes principales (PCA) et K-Nearest Neighbours (KNN), ainsi que des méthodologies d'apprentissage en profondeur telles que les réseaux de neurones convolutifs (CNN) et les réseaux contradictoires génératifs (GAN). La base de données WHOIS, les captures d'écran, les modèles de noms de domaine, le contenu de sites Web malveillants et les données DNS passives ne sont que quelques-unes des nombreuses sources à partir desquelles les données seront compilées pour alimenter le système en informations riches. Un ensemble de données riche et dynamique pour l'analyse sera mis à disposition en utilisant le flux DNS passif de SIE Europe, qui enregistre en continu les informations de requête DNS en temps réel provenant de nombreux réseaux, y compris les principaux opérateurs de télécommunications et fournisseurs de services Internet. Les problèmes de confidentialité entourant le traitement d'informations sensibles, telles que les détails non publics du titulaire d'un nom de domaine, seront résolus grâce à l'exploration d'un système d'apprentissage automatique fédéré. Ce système fonctionnera en créant des modèles basés sur anonymisé les données locales et les modèles de comportement, garantissant ainsi la confidentialité individuelle tout en contribuant au développement d'un modèle global représentant les caractéristiques comportementales collectives.