Détection d’anomalies robuste et non-supervisée : Appliquée à la supervision du trafic réseau
Auteur / Autrice : | Naji Najari |
Direction : | Stefan Duffner, Christophe Garcia |
Type : | Thèse de doctorat |
Discipline(s) : | Maths info |
Date : | Soutenance le 13/12/2022 |
Etablissement(s) : | Lyon, INSA |
Ecole(s) doctorale(s) : | École doctorale en Informatique et Mathématiques de Lyon (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Entreprise : France Telecom Orange labs (2007-2012) |
Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS | |
Membre de : Université de Lyon (2015-....) | |
Equipe de recherche : imagine - Extraction de Caractéristiques et Identification | |
Jury : | Examinateurs / Examinatrices : Stefan Duffner, Christophe Garcia, Philippe Owezarski, Nicole Vincent, Stéphane Mallat, Thierry Chateau, Emilie Devijver |
Rapporteurs / Rapporteuses : Philippe Owezarski, Nicole Vincent |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Cette thèse étudie la détection non-supervisée et robuste des anomalies à partir du trafic réseau des équipements connectés (Internet of Things, IoT). On explore en particulier l’apprentissage de représentations pour la modélisation de la norme à l’aide des réseaux de neurones artificiels, et en particulier l’architecture autoencodeurs. Les approches autoencodeur classiques apprennent à reconstruire les données nominales uniquement. Comme les nouvelles observations anormales sont structurellement différentes, leur traitement est accompagné d’une perte d’information significative, avec une large erreur de reconstruction. Toutefois, la constitution d’une base d’apprentissage sans anomalie est coûteuse, chronophage, et même parfois infaisable pour des anomalies encore inconnues des experts. Ainsi, nous avons cherché à développer des autoencodeurs robustes, i.e., capables de modéliser la norme même si la base d'apprentissage est contaminée par des anomalies. En particulier, nous proposons trois contributions. Dans un premier temps, nous proposons RADON (Robust Autoencoder with Dynamic Outlier filteriNg), qui s’appuie sur une auto-supervision. Nous estimons dynamiquement des anomalies de l’ensemble d’apprentissage par seuillage de l’histogramme de reconstruction. Nous les exploitons ensuite pour renforcer le potentiel de discrimination du modèle. Dans un deuxième temps, nous proposons GRAnD (Generative Robust autoencoder for unsupervised Anomaly Detection), en exploitant la puissance des autoencodeurs variationnels et des normalizing fows pour améliorer le processus d'estimation des anomalies. Le critère de seuillage sur l’histogramme des scores de reconstruction est remplacé par une modélisation statistique grâce à la théorie des valeurs extrêmes. Enfin, nous proposons RESIST (Robust transformEr developed for unSupervised tIme Series anomaly deTection), qui s’appuie sur les modèles sequence-to-sequence, et en particulier les Transformeurs, pour modéliser les dépendances temporelles entres les tokens d’une séquence de flux réseaux et détecter toute déviation contextuelle et collective. L’impact des contaminants lors de l’apprentissage est significativement atténué grâce à une architecture Siamoise et la fonction objective robuste Geman-McClure.