Thèse soutenue

Détection d’anomalies séquentielles dans des données extrêmement déséquilibrées : application à la détection des fraudes par carte de crédit

FR  |  
EN
Auteur / Autrice : Ayman Alazizi
Direction : Amaury HabrardFrançois Jacquenet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 03/12/2020
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale Sciences Ingénierie Santé (Saint-Etienne)
Partenaire(s) de recherche : Equipe de recherche : Laboratoire Hubert Curien (Saint-Etienne ; 1995-....)
établissement opérateur d'inscription : Université Jean Monnet (Saint-Étienne ; 1969-....)
Laboratoire : Laboratoire Hubert Curien [Saint Etienne]
Jury : Président / Présidente : Christophe Ducottet
Examinateurs / Examinatrices : Gianluca Bontempi
Rapporteurs / Rapporteuses : Jean-Christophe Janodet, Cécile Capponi

Résumé

FR  |  
EN

Le développement technologique a facilité le développement du commerce électronique et a renforcé la confiance des clients dans l'utilisation de leurs cartes de crédit. Toutefois, la fraude en matière de transaction par carte s’est également développée, entraînant des milliards de dollars de pertes. Il est donc très important de développer des systèmes de détection des fraudes qui réduisent ces pertes. La construction d'algorithmes d'apprentissage automatique pour identifier les transactions frauduleuses est une tâche difficile. Dans cette thèse, nous mettons donc en évidence certains défis complexes qui apparaissent dans les bases de données du monde réel, tels que : le déséquilibre extrême des données, la dérive conceptuelle résultant des changements de comportement d'achat et de stratégies des fraudeurs au fil du temps et le chevauchement entre les représentations des transactions réelles et frauduleuses. Nous nous concentrons également sur la question des erreurs humaines, qui est l'une des principales raisons du bruit des étiquettes. En plus des défis précédents, nous montrons également l'importance des attributs construits manuellement qui pourraient reprendre des informations séquentielles. Cependant, ces attributs sont coûteux en temps et en argent. Pour surmonter ces défis, nous proposons une nouvelle approche pour exploiter les informations séquentielles et gérer le problème du déséquilibre afin de construire automatiquement les attributs au lieu de les fabriquer à la main. Des résultats empiriques montrent que notre approche est efficace, précise et améliore la performance du modèle de classification.