Analyse de trafic HTTPS pour la supervision d'activités utilisateurs
Auteur / Autrice : | Pierre-Olivier Brissaud |
Direction : | Isabelle Chrisment, Jérôme François |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 14/12/2020 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications |
Jury : | Président / Présidente : Marine Minier |
Examinateurs / Examinatrices : Isabelle Chrisment, Jérôme François, Radu State, Sandrine Vaton, Gregory Blanc, Jean-Noël Colin | |
Rapporteurs / Rapporteuses : Radu State, Sandrine Vaton |
Mots clés
Mots clés contrôlés
Résumé
L'usage du chiffrement pour protéger la vie privée des utilisateurs est devenue la norme pour l'ensemble des services web. Ainsi, il n'est plus possible d'utiliser les outils habituels, tel que l'inspection de paquet, pour détecter des comportements illicites sur Internet. L'enjeu principal de cette thèse est donc de trouver de nouvelles solutions alternatives pour superviser certains comportements utilisateur dans du trafic HTTPS, tout en respectant trois principes : passivité, transparence et respect de la vie privée. Ce besoin est réel car dans le domaine de l'analyse de trafic chiffré, l'état de l'art s'est développé principalement autour de la reconnaissance des protocoles ou des services mais pas sur la détection des actions utilisateur. Un premier objectif de cette thèse est de superviser des mots-clés recherchés sur un moteur de recherche d'images lors de l'usage de HTTPS couplé avec HTTP/1.1. Cette solution passe par la reconstruction des tailles d'objets HTTP pour construire des signatures du trafic avec la méthode de l'estimation par noyau (KDE). Lors de l'évaluation de cette solution afin de détecter l'utilisation de plus de 10 000 mots-clés sur le service Google Images, notre solution de classification atteint un taux de justesse de plus de 99% en considérant un scénario en monde ouvert. Cette approche convient pour du trafic chiffré HTTP/1.1 mais voit ses performances limitées face à du trafic HTTP/2, car cette version de HTTP à un fort impact sur le trafic. Ainsi, dans un deuxième temps, l'objectif est d'adapter nos connaissances pour réaliser de la détection sur du trafic HTTPS couplé avec HTTP/2. Cette nouvelle solution de supervision, s'articule autour de caractéristiques observables sur du trafic chiffré et adaptées pour HTTP/2. Les caractéristiques couplées à une solution d'apprentissage supervisé (les forêts d'arbres décisionnels) permettent la création d'un modèle de classification. Cette solution nommé H2Classifier est évaluée sur plusieurs services très utilisés (Amazon, Google, Google Images et Google Maps) et affiche un TPR entre 61 et 98% dépendant du service considéré, lors de la supervision de 2000 mots-clés (par service) dans le cadre d'un scénario en monde ouvert. Finalement H2Classifier est également testé dans différentes situations permettant d'évaluer l'impact du temps, des services et des configurations sur ce nouvel outil de supervision.