Thèse soutenue

Quelques méthodes d’explicabilité pour les modèles d’apprentissage statistique en actuariat

FR  |  
EN
Auteur / Autrice : Arthur Maillart
Direction : Christian Yann Robert
Type : Thèse de doctorat
Discipline(s) : Sciences de gestion
Date : Soutenance le 29/06/2021
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale Sciences économiques et de gestion (Lyon ; 2007-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Claude Bernard (Lyon ; 1971-....)
Laboratoire : Laboratoire de Sciences Actuarielle et Financière (Lyon ; 1997-....)
Jury : Président / Présidente : Frédéric Planchet
Examinateurs / Examinatrices : Christian Yann Robert, Olivier Lopez, Katrien Antonio, Arthur Charpentier, Caroline Hillairet
Rapporteurs / Rapporteuses : Olivier Lopez, Katrien Antonio

Résumé

FR  |  
EN

Dans cette thèse, montrons à travers trois problématiques indépendantes l'intérêt des méthodes d'explicabilité pour l'apprentissage statistique en science actuarielle. Dans notre premier cas d’usage, nous construisons un modèle de fréquence sinistre, notre boîte noire, avec un Poisson random forest. Puis, nous proposons une méthode permettant de construire un arbre qui reproduit fidèlement les prédictions de la boîte noire tout en étant moins complexe et de ce fait plus interprétable. En remarquant que la complexité d’un ensemble d’arbres est liée aux trop nombreux rectangles (règles) qui forment la partition sur laquelle prédit le modèle, nous proposons une méthode permettant de défragmenter l’espace et donc d’agréger les petits rectangles de la partition fine pour en former moins, mais plus grands. Pour cela, nous exprimons la distribution de couples (rectangle, prédiction) en fonction de paramètres à estimer. Grâce à cela, il est possible de formuler le problème d'agrégation comme un problème de maximisation de la vraisemblance dont nous pouvons obtenir une solution numérique avec l'algorithme espérance-maximisation. Suite à cette optimisation, nous disposons d’un ensemble restreint de rectangles dont nous nous servons pour construire un arbre de régression qui sert d’interface avec le modèle boîte noire. Grâce à ce modèle de substitution que nous extrayons, nous pouvons ensuite expliquer les prédictions du modèle de fréquence sinistre en fonction des variables télématiques. Notre deuxième application porte sur l’estimation de l’indice de queue qui mesure l'importance d'un évènement extrême. Pour cela, nous supposons que ce paramètre prend un nombre fini de valeurs sur une partition de l'espace des variables explicatives. Nous ajustons un modèle gamma gradient boosting, notre boîte noire, pour obtenir une estimation de l'indice de queue en fonction des variables explicatives. Puis, nous déterminons la partition générée par le gamma gradient boosting et calculons la valeur prédite par ce dernier au sein de chaque rectangle. Nous connaissons ainsi les prédictions du modèle sur toute la partition. Pour obtenir un modèle statistiquement plus pertinent, nous agrégeons les rectangles avec une méthode de classification ascendante hiérarchique contrainte spatialement. Toutefois, ce modèle n'est pas interprétable puisque la forme des régions créées par l'agrégation est trop complexe pour être décrite simplement. Par conséquent, nous modifions l’algorithme de l’arbre de régression pour qu’il apprenne à reproduire cette partition. Notre modèle de substitution s’obtient en élaguant l’arbre maximal à la profondeur souhaitée. Nous appliquons cette méthodologie à un jeu de données qui contient les coûts estimés des tornades aux États-Unis sur les 50 dernières années. Notre dernière application se consacre aux modèles paramétriques. Parmi ces modèles, nous trouvons les modèles linéaires généralisés, et les réseaux de neurones. Notre boîte noire est ici un réseau de neurones. Contrairement aux applications précédentes, nous ne cherchons pas une explication globale des prédictions mais seulement des explications valables au voisinage d'une prédiction à expliquer. Nous nous plaçons dans un cadre de classification binaire et proposons une méthode pour expliquer une prédiction pour une observation donnée de l'espace. La stratégie que nous suggérons ici est d'identifier des points influents pour une prédiction. Ces points, peu nombreux, permettent de localiser la frontière de décision au voisinage de la prédiction à expliquer. Ensuite, nous développons un algorithme qui permet de construire un hyperplan tangent à la frontière de décision au voisinage de la prédiction à expliquer. Cet hyperplan est un modèle de substitution local qui permet d'expliquer une prédiction à la fois. Nous illustrons cette stratégie avec un problème de prévention pour lequel nous voulons trouver les profils les plus susceptibles de faire une déclaration de sinistre.