Thèse soutenue

Introduction de modèles de machine learning interprétables en grande dimension et leurs applications

FR  |  
EN
Auteur / Autrice : Simon Bussy
Direction : Agathe GuillouxAnne-Sophie Jannot
Type : Thèse de doctorat
Discipline(s) : Statistique
Date : Soutenance le 16/01/2019
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....)
Jury : Président / Présidente : Franck Picard
Examinateurs / Examinatrices : Stéphane Gaïffas, Grégory Nuel, Rodolphe Thiébaut
Rapporteurs / Rapporteuses : Raphaël Porcher, Jean-Philippe Vert

Résumé

FR  |  
EN

Dans ce manuscrit sont introduites de nouvelles méthodes interprétables de machine learning dans un contexte de grande dimension. Différentes procédures sont alors proposées : d'abord le C-mix, un modèle de mélange de durées qui détecte automatiquement des sous-groupes suivant le risque d'apparition rapide de l'événement temporel étudié; puis la pénalité binarsity, une combinaison entre variation totale pondérée et contrainte linéaire par bloc qui s'applique sur l'encodage "one-hot'' de covariables continues ; et enfin la méthode binacox qui applique la pénalité précédente dans un modèle de Cox en tirant notamment parti de sa propriété de détection automatique de seuils dans les covariables continues. Pour chacune d'entre elles, les propriétés théoriques sont étudiées comme la convergence algorithmique ou l'établissement d'inégalités oracles non-asymptotiques, et une étude comparative avec l'état de l'art est menée sur des données simulées et réelles. Toutes les méthodes obtiennent de bons résultats prédictifs ainsi qu'en terme de complexité algorithmique, et chacune dispose d'atouts intéressants sur le plan de l'interprétabilité.