Thèse soutenue

Analyse de trafic HTTPS pour la supervision d'activités utilisateurs

FR  |  
EN
Auteur / Autrice : Pierre-Olivier Brissaud
Direction : Isabelle ChrismentJérôme François
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/12/2020
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Marine Minier
Examinateurs / Examinatrices : Isabelle Chrisment, Jérôme François, Radu State, Sandrine Vaton, Gregory Blanc, Jean-Noël Colin
Rapporteurs / Rapporteuses : Radu State, Sandrine Vaton

Résumé

FR  |  
EN

L'usage du chiffrement pour protéger la vie privée des utilisateurs est devenue la norme pour l'ensemble des services web. Ainsi, il n'est plus possible d'utiliser les outils habituels, tel que l'inspection de paquet, pour détecter des comportements illicites sur Internet. L'enjeu principal de cette thèse est donc de trouver de nouvelles solutions alternatives pour superviser certains comportements utilisateur dans du trafic HTTPS, tout en respectant trois principes : passivité, transparence et respect de la vie privée. Ce besoin est réel car dans le domaine de l'analyse de trafic chiffré, l'état de l'art s'est développé principalement autour de la reconnaissance des protocoles ou des services mais pas sur la détection des actions utilisateur. Un premier objectif de cette thèse est de superviser des mots-clés recherchés sur un moteur de recherche d'images lors de l'usage de HTTPS couplé avec HTTP/1.1. Cette solution passe par la reconstruction des tailles d'objets HTTP pour construire des signatures du trafic avec la méthode de l'estimation par noyau (KDE). Lors de l'évaluation de cette solution afin de détecter l'utilisation de plus de 10 000 mots-clés sur le service Google Images, notre solution de classification atteint un taux de justesse de plus de 99% en considérant un scénario en monde ouvert. Cette approche convient pour du trafic chiffré HTTP/1.1 mais voit ses performances limitées face à du trafic HTTP/2, car cette version de HTTP à un fort impact sur le trafic. Ainsi, dans un deuxième temps, l'objectif est d'adapter nos connaissances pour réaliser de la détection sur du trafic HTTPS couplé avec HTTP/2. Cette nouvelle solution de supervision, s'articule autour de caractéristiques observables sur du trafic chiffré et adaptées pour HTTP/2. Les caractéristiques couplées à une solution d'apprentissage supervisé (les forêts d'arbres décisionnels) permettent la création d'un modèle de classification. Cette solution nommé H2Classifier est évaluée sur plusieurs services très utilisés (Amazon, Google, Google Images et Google Maps) et affiche un TPR entre 61 et 98% dépendant du service considéré, lors de la supervision de 2000 mots-clés (par service) dans le cadre d'un scénario en monde ouvert. Finalement H2Classifier est également testé dans différentes situations permettant d'évaluer l'impact du temps, des services et des configurations sur ce nouvel outil de supervision.