Thèse soutenue

Profilage et Visualisation de Datasets d’Applications Android Malveillantes

FR  |  
EN
Auteur / Autrice : Tomas Javier Concepcion Miranda
Direction : Jean-François LalandeValérie Viêt Triêm Tông
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/11/2022
Etablissement(s) : CentraleSupélec
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes)
Jury : Président / Présidente : Céline Hudelot
Examinateurs / Examinatrices : Lorenzo Cavallaro, Jacques Klein, Vincent Roca
Rapporteurs / Rapporteuses : Lorenzo Cavallaro, Jacques Klein

Résumé

FR  |  
EN

Les dispositifs mobiles sont ubiquitaires: aujourd’hui la majorité des gens possèdent un téléphone mobile. A cause de ce fait, ces dispositifs sont une cible d’intérêt pour les attaquants. Ces attaques sont véhiculées au travers des applications malveillantes qui peuvent nuire aux dispositifs mobiles. Les chercheurs en analyse de malware travaillent à reconnaître ces types de programmes avant qu’ils soient installés sur un dispositif utilisateur. Pour faire cela, ils réalisent des expériences pour automatiquement détecter ces malware, où ils utilisent des ensembles de malware et des applications bénignes déjà connues. Selon le dataset choisi, les résultats des expériences peuvent être acceptables ou bien exceptionnellement bons parce que surestimés. Par conséquent, les datasets de malware et applications bénignes sont des éléments importants à considérer quand nous élaborons une expérience. Cette thèse présente, premièrement, une méthode pour évaluer la qualité des datasets basée sur un test statistique qui aide à comparer un dataset créé avec un grand ensemble d’applications par exemple issu d’un magasin d’applications. Nous montrons alors que les datasets historiques de la littérature sont de mauvaise qualité, ce qui justifie le besoin de créer des nouveaux datasets plus à jour. Deuxièmement, nous introduisons un algorithme pour mettre à jour des datasets mixtes de malware/goodware de mauvaise qualité afin de ressembler à un dataset cible qui ne peut pas être utilisé directement, e.g. un magasin d’applications. Nous évaluons les datasets mixtes mis à jour en utilisant un algorithme d’apprentissage automatique et nous montrons que la détection de malware sur notre dataset mis à jour devient un problème plus difficile à résoudre. Enfin, nous introduisons DaViz, un outil de visualisation de datasets pour explorer et comparer des datasets d’applications Android. Cet outil permet aux chercheurs de visualiser les biais dans les datasets de la littérature, et d’obtenir des informations utiles à leur propos.