Thèse soutenue

Méthodes d’apprentissage statistique pour l’analyse prédictive du risque de crédit

FR  |  
EN
Auteur / Autrice : Guillaume Ausset
Direction : Stephan ClémençonFrançois Portier
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 02/12/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Cristina Butucea
Examinateurs / Examinatrices : Stephan Clémençon, François Portier, Marc Hoffmann, Anouar El Ghouch, Tabea Rebafka
Rapporteurs / Rapporteuses : Marc Hoffmann, Anouar El Ghouch

Résumé

FR  |  
EN

Prédire l'occurrence possible d'un événement futur, qui peut finalement ne jamais se produire, est un problème fondamental qui se pose naturellement dans la plupart des domaines scientifiques et industriels. Ce problème, communément appelé analyse de survie de par son application canonique en épidémiologie, est depuis longtemps l'un des problèmes classiques des statistiques descriptives dont les contributions exceptionnelles ont permis des avancées incommensurables dans les sciences naturelles.Plus récemment, grâce aux progrès réalisés dans le domaine de l'apprentissage automatique, ces mêmes domaines des sciences naturelles et les applications industrielles ont également été en mesure de réaliser d'importants bonds en avant en exploitant de grandes quantités de données à haute dimension à l'aide d'estimateurs très flexibles. Dans cette thèse, nous essayons de réconcilier les deux approches et de montrer comment utiliser au mieux les estimateurs issus de l'apprentissage automatique complexe, dans le cadre de l'analyse de survie. Nous montrons dans ce travail comment le cadre classique de la minimisation du risque empirique peut être adapté au cadre de l'analyse de survie en introduisant un objectif repondéré appelé risque de Kaplan-Meier et nous dérivons des bornes d'erreur non asymptotiques et non paramétriques, équivalent direct des résultats attendus dans le domaine de l'apprentissage automatique sans censure. Nous montrons également comment construire des estimateurs flexibles de la fonction de survie, l'un des principaux éléments nécessaires dans le cadre de notre approche de minimisation du risque de Kaplan-Meier. Nous formulons la survie comme un problème de flux normalisant et introduisons un nouvel estimateur conditionnel de flux normalisant de la densité de survie, ce qui donne un estimateur de la densité de survie tractable et facile à échantillonner. Afin de réduire la complexité des deux approches précédentes, nous introduisons un estimateur du gradient d'une fonction inconnue et montrons comment l'utiliser pour la sélection de variables, une méthode simple, mais très efficace de réduction de la dimensionnalité. Enfin, nous appliquons les méthodes développées ici à une instance particulière du problème de survie : la prédiction des défauts. Nous montrons comment utiliser les estimateurs de la probabilité de défaut pour construire des portefeuilles optimaux ainsi que comment utiliser efficacement des données de petite taille grâce aux méthodes hiérarchiques.