La détection de fraude à la carte bancaire :une application avec la méthode de la profondeur des données (Data Depth)
Auteur / Autrice : | Leonardo Leone |
Direction : | Pavlo Mozharovskyi, David Bounie |
Type : | Projet de thèse |
Discipline(s) : | Informatique, données, IA |
Date : | Inscription en doctorat le 15/10/2023 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Traitement et Communication de l'Information |
Equipe de recherche : S2A - Statistique et Apprentissage |
Mots clés
Mots clés libres
Résumé
Ce projet de doctorat vise à explorer le concept de data depth (profondeur des données) en tant qu'outil de détection d'anomalies, en particulier d'anomalies en matière de fraude à la carte bancaire. 1. Les enjeux scientifiques Introduit par John Tukey en 1975 (Tukey, 1975), une fonction de profondeur statistique (data depth) est une généralisation du concept de quantiles à des données multivariées. Étant donné une mesure de probabilité ou un échantillon de données dans l'espace Euclidien de dimension d, la profondeur attribue à tout point du même espace un nombre réel, généralement mis à l'échelle [0, 1], qui caractérise son degré de l'appartenance à une distribution ou à un ensemble de données. En fournissant un ordre multivarié non paramétrique, affine et (souvent) robuste, la profondeur des données trouve de nombreuses applications, par exemple, dans les statistiques descriptives, l'inférence statistique ou la mesure du risque pour n'en citer que quelques-unes (Liu, Parelius et Singh, 1999 ; Cascos, 2007). Pour plus d'informations sur les applications de la profondeur des données, nous nous référons aux articles de survey de Zuo et Serfling (2000) et Mosler et Mozharovskyi (2022). L'application de ces méthodes nécessite des algorithmes efficaces pour le calcul des profondeurs. Étant donné que de nombreuses notions de profondeur sont entièrement fondées sur les données et invariantes affines, leur calcul constitue un défi. Par exemple, le calcul de la profondeur halfspace (Tukey, 1975 ; Donoho et Gasko, 1992) - l'une des notions de profondeur les plus importantes dans la littérature - est un problème NP-complet (Johnson et Preparata, 1978), et le seul algorithme exact existant pour le calcul de la profondeur projectionnelle (Liu et Zuo, 2014) est encore très lent. Pour cette raison, les développements théoriques sur la profondeur des données sont accompagnés d'une importante littérature sur son calcul et implementation (voir, par exemple, Pokotylo, Mozharovskyi et Dyckerhoff, 2019), qui contient encore un certain nombre de problèmes ouverts. Alors que le calcul exact de certaines notions de profondeur peut avoir un coût de calcul très élevé (voir, par exemple, Dyckerhoff et Mozharovskyi, 2016 pour la profondeur halfspace et Liu et Zuo, 2014 pour la profondeur projectionnelle), des approximations ont été proposées (Dyckerhoff, Mozharovskyi et Nagy, 2021). Ce travail de thèse se fixe pour objectif d'étudier les méthodes de profondeur de données en travaillant sur son implémentation en Python/C++, puis en explorant son adaptation au niveau du CPU en parallel/GPU pour une échelle de données plus importante. Nous souhaitons optimiser cette technique, la combiner avec d'autres méthodes existantes et les comparer en benchmarks. Nous envisageons également d'explorer l'analyse du comportement des dépenses des individus à l'aide de cette technique pour déterminer quel est le niveau de risque d'une transaction. Du point de vue opérationnel, nous cherchons à mettre en place un système utilisant cette technique pour l'analyse en temps réel des fraudes dans les transactions par carte, principalement dans le contexte des ventes à distance. Ce système attribuerait un score permettant de déterminer le risque d'une transaction basé sur l'historique d'achats individuels. Étant donné l'ampleur des fraudes par carte et leur impact économique considérable, ce projet vise à résoudre un problème opérationnel majeur en touchant un enjeu qui coûte des milliards d'euros pour les consommateurs. 2. Contenu de la thèse Ce projet présente des enjeux importants tant du point de vue académique qu'opérationnel et économique. Sur le plan académique, il contribuera à la recherche en explorant l'utilisation de la technique de data depths pour la détection d'anomalies à grande échelle et en comparant ses performances avec celles d'autres méthodes existantes. Sur le plan opérationnel, il permettra la mise en place d'un système de détection des fraudes en temps réel, offrant ainsi une solution précieuse pour l'industrie. En outre, ce projet ouvre la voie à plusieurs autres aspects importants qui peuvent être abordés, tels que l'interprétabilité des résultats (voir, par exemple, le préprint par Mozharovskyi, 2022, pour les premières idées), l'adaptation de la technique à d'autres domaines d'application, la prise en compte de données hétérogènes, ainsi que l'évolution des techniques de détection des fraudes en réponse aux stratégies des fraudeurs. Pour réaliser ce travail, nous travaillerons en partenariat avec le Groupement des Cartes Bancaires CB. Le Groupement des Cartes Bancaires CB est un Groupement d'Intérêt Economique qui définit les modalités de fonctionnement du schéma de paiement par carte CB (physique ou dématérialisée dans le mobile). Dans le cadre de ses missions, CB dispose d'un entrepôt de données de paiement par carte unique en France alimenté chaque année par plus de 10 Milliards de transactions carte. CB dispose des dernières technologies Big Data (distribution Cloudera : Hadoop, Spark, ...), et investit chaque année pour développer des services autour de la data, notamment pour la lutte contre la fraude qui est un des enjeux majeurs de CB. Dans ce contexte, la détection de fraude permet à CB de répondre rapidement à deux enjeux majeurs : adapter leur politique et stratégie de lutte contre la fraude aux évènements en cours et diffuser des informations fiables concernant la fraude en interne comme à leurs partenaires.