Modèle linéaire parcimonieux avec interactions quadratiques
Auteur / Autrice : | Florent Bascou |
Direction : | Joseph Salmon, Sophie Lèbre |
Type : | Thèse de doctorat |
Discipline(s) : | Biostatistique |
Date : | Soutenance le 09/09/2022 |
Etablissement(s) : | Université de Montpellier (2022-....) |
Ecole(s) doctorale(s) : | École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Institut Montpelliérain Alexander Grothendieck (Montpellier ; 2003-....) |
Jury : | Examinateurs / Examinatrices : Joseph Salmon, Sophie Lèbre, Julien Chiquet, Karim Lounici, Jean-Michel Marin, Mathurin Massias, Marine Le Morvan |
Rapporteur / Rapporteuse : Julien Chiquet, Karim Lounici |
Mots clés
Résumé
Nous présentons un estimateur pour l'ajustement, en grande dimension, d'un modèle linéaire avec interactions quadratiques. Un tel modèle ayant un très grand nombre de variables, son estimation soulève de nombreux défis statistiques et numériques. Ainsi, son estimation a motivé de nombreux travaux ces deux dernières décennies, et reste un enjeu dans de nombreuses applications. Statistiquement, un des enjeux est de pouvoir faire de la sélection de variables, pour faciliter l'interprétabilité du modèle. De plus, les variables d'interactions ajoutées pouvant être fortement corrélées, une régularisation adaptée doit permettre de les prendre en compte. On propose alors d'adapter l'estimateur ElasticNet, pour prendre en compte les potentielles corrélations via la pénalité L2 et obtenir un modèle parcimonieux via la pénalité L1. Aussi, une approche communément utilisée dans la littérature, pour favoriser les effets principaux tout en réduisant le nombre d'interactions à considérer, est l'hypothèse d'hérédité. Cette hypothèse n'autorise à inclure une interaction que si et seulement si les effets principaux associés sont sélectionnés dans le modèle. Ainsi, elle mène à des modèles parcimonieux, plus faciles à interpréter, tout en réduisant le nombre d'interactions à visiter et le coût computationnel. Cependant, elle ne permet pas d'explorer les variables d'interactions dont les effets principaux ne sont pas sélectionnés, alors que ces variables peuvent être pertinentes à considérer. Aussi, on propose de s'affranchir de cette hypothèse structurelle d'hérédité, et de pénaliser davantage les interactions que les effets simples, pour favoriser ces dernières et l'interprétabilité. Aussi, on sait que les estimateurs pénalisés tels que l'ElasticNet biaisent les coefficients en les réduisant agressivement vers zéro. Une conséquence est la sélection de variables supplémentaires pour compenser la perte d'amplitude des coefficients pénalisés, affectant la calibration des hyperparamètres lors de la validation croisée. Une solution simple est alors de sélectionner les variables par l'ElasticNet, puis d'estimer ces coefficients par l'estimateur des moindres carrés, pour chaque hyperparamètre. Cependant, si les variables sont fortement corrélées, l'étape des moindres carrés peut échouer. Aussi, on choisit d'adapter une méthode de débiaisage permettant d'obtenir simultanément les coefficients de l'ElasticNet et leur version débiaisée. Un premier enjeu de ce travail est de développer un algorithme qui ne requiert pas de stocker la matrice des interactions, qui peut dépasser la capacité mémoire d'un ordinateur. Pour ce faire, on adapte un algorithme de descente par coordonnées, permettant de construire les colonnes de cette matrice à la volée sans les stocker, mais ajoute des calculs supplémentaires à chaque mise-à-jour d'un coefficient d'interactions, augmentant les temps de calculs. Aussi, sachant que notre estimateur est parcimonieux, ces calculs peuvent être d'autant plus inutiles que beaucoup de coefficients d'interactions sont nuls, et donc inutilement mis à jour. Un second enjeu est de proposer un algorithme qui reste efficace, malgré le grand nombre d'interactions à considérer et ce surcoût de calculs. Par conséquent, afin d'exploiter la parcimonie de l'estimateur et de réduire le nombre de coefficients d'interactions à mettre à jour, on adapte un algorithme d'ensembles actifs. Enfin, on adapte l'accélération d'Anderson, qui permet d'accélérer les algorithmes de descente par coordonnées pour les problèmes type lasso. Finalement, les performances de notre estimateur sont illustrées aussi bien sur données simulées que sur données réelles, et comparées avec des méthodes de l'état de l'art.