Reconnaissance de motifs dynamiques par automates temporisés à mémoire
Auteur / Autrice : | Clément Bertrand |
Direction : | Hanna Klaudel, Frédéric Peschanski |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 17/12/2020 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Informatique, Biologie Intégrative et Systèmes Complexes (Evry, Essonne) - Informatique- BioInformatique- Systèmes Complexes / IBISC |
Référent : Université d'Évry-Val-d'Essonne (1991-....) | |
Jury : | Président / Présidente : Franck Pommereau |
Examinateurs / Examinatrices : Étienne André, Alexandre Duret-Lutz, Tiphaine Viard, Emmanuel Filiot, Elisabeth Pelz | |
Rapporteur / Rapporteuse : Étienne André, Alexandre Duret-Lutz |
Mots clés
Résumé
L'utilisation toujours plus importante de l'informatique et d'internet mène à une génération toujours plus importante de donnés et de communications. Ces données peuvent être par exemple des historiques de communication dans des réseaux sociaux ou encore des traces du trafic internet. De tels historiques de communications sont une forme de graphe dynamique formalisable par des flots de liens. De nombreux travaux s'articulent autour de la supervision et l'analyse de ces systèmes afin de détecter l'apparition de certains phénomènes ou scénarios spécifiques. Par exemple, dans le cadre de la sécurité, on souhaite détecter des tentatives d'intrusions concertées, tel des DDOS. Une première problématique est la création d'un langage général et normalisé de spécification de tel phénomène, car peu de langages existent et ils sont souvent spécifiques à certaines catégories de scénarios par soucis de performance. La seconde problématique principale est l'implémentation d'un prototype d'outil de reconnaissance pour détecter ces phénomènes dans des jeux de données issues de situation réelles.Notre approche consiste à représenter ces propriétés comme des motifs spécifiés avec un dérivé des expressions régulières: les expressions temporisées à couches mémoire. Ces expressions permettent à la fois de spécifier des contraintes de temps, et donc de représenter le dynamisme des systèmes, mais aussi de représenter des données d'un environnement ouvert. Ce dernier représente le fait que les entités/acteurs présents dans les réseaux étudiés ne sont pas toujours connues à l'avance et peuvent apparaitre ou disparaitre au cours de son évolution. Dans le cas de la détection d'intrusion, l'on ne peut pas connaitre les identités des attaquants à l'avance. Comme pour les expressions régulières, la théorie des automates offre des formalismes de reconnaissance pour les différents types de propriétés caractérisant les motifs. Le modèle des automates temporisés, est classique dans la littérature pour sa capacité à formaliser des contraintes de temps. De plus, les différentes classes d'automates à mémoire permettant la reconnaissance de langage sur des alphabets infinis, correspondant à des motifs sur des environnements ouverts. Nous avons conçu le modèle des automates temporisés à couches mémoire, intégrant les caractéristiques de ces deux catégories d'automates. L'une des caractéristiques de ce modèle est l'introduction de la notion de couches mémoire offrant une flexibilité quant à la définition de propriétés complexes. Nous prouvons l'équivalence entre cette classe d'automate et les expressions temporisées à couches mémoire avec un théorème semblable au théorème de Kleene. Cela nous permet de précisément caractériser, et positionner dans la littérature, la classe des motifs exprimés.Enfin, la dernière contribution de cette thèse est le développement et l'implémentation d'un algorithme de reconnaissance générique. Son implémentation dans un outil nous permet d'effectuer des expérimentations sur des flots de liens issus de réseaux réels. Nous avons ainsi pu modéliser des scénarios d'intrusion dans des réseaux, et appliquer notre outil au problème de la détection de communautés dans les réseaux sociaux.