Thèse soutenue

Contributions à l'analyse théorique de méthodes d'apprentissage statistique et de quantification de l'incertitude

FR  |  
EN
Auteur / Autrice : Thibault Randrianarisoa
Direction : Ismaël Castillo
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 28/09/2022
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....)
Jury : Président / Présidente : Gilles Blanchard
Examinateurs / Examinatrices : Olivier Wintenberger, Aad W. van der Vaart, Veronika Rockova, Johannes Schmidt-Hieber, Botond Szabó
Rapporteurs / Rapporteuses : Gilles Blanchard, Edward I. George

Résumé

FR  |  
EN

L'analyse moderne des données fournit aux scientifiques des algorithmes statistiques et d'apprentissage automatique aux performances impressionnantes. Face à leur utilisation intensive pour traiter des problèmes dont la complexité ne cesse de croître, il existe un réel besoin de comprendre les conditions dans lesquelles ceux-ci fonctionnent ou sont voués à l'échec. Un objectif supplémentaire est d'obtenir des pistes pour la conception de nouvelles méthodes algorithmiques capables de s'attaquer à des tâches toujours plus innovantes et complexes. Un cadre naturel pour développer une théorie mathématique de ces méthodes est celui de l'inférence non-paramétrique. Ce domaine de la statistique s'intéresse à l'inférence de quantités inconnues sous des hypothèses minimales, moins restrictives qu'en statistique paramétrique. À la base de cette théorie est la modélisation statistique en dimension infinie d'une quantité paramétrant la loi des données. Cette flexibilité est d'autant plus intéressante que nous recherchons des algorithmes fiables dans un large éventail de contextes, et que les progrès des techniques d'acquisition de données génèrent désormais des ensembles de données massifs et complexes. Ce dernier point nous incite à mener une analyse asymptotique, qui est une approche traditionnelle pour évaluer la performance des procédures d'apprentissage. Nous étudions ici des problèmes d'estimation et de quantification de l'incertitude (QI).La première classe d'algorithmes que nous traitons est celle des méthodes bayésiennes basée sur des structures d'arbres. Elles reposent sur le principe de 'diviser pour mieux régner', en partitionnant l'espace des données pour estimer le paramètre localement. En régression, ces méthodes incluent BCART et BART, cette dernière étant un ensemble d'arbres ou forêt. En estimation de densité, les arbres de Pólya sont un exemple de telles lois a priori et constituent la base d'une myriade de constructions connexes. Nous proposons une nouvelle extension, DPA, qui est une "forêt de Pólya" et permet d'atteindre des vitesses de contraction minimax, de manière adaptative, en distance de Hellinger pour des régularités de Hölder arbitraires. Des vitesses adaptatives dans la norme infinie sont également obtenues pour la loi a priori des arbres de Pólya optionnel (OPT), similaire à BCART en régression, pour des paramètres au plus Lipschitz régulier. Les processus gaussiens sont une autre classe populaire de lois étudiées en statistique bayésienne nonparamétrique et en apprentissage automatique. Motivés par la taille toujours croissante des bases de données, nous proposons un nouveau processus gaussien 'horseshoe' avec une couche de sélection de variables 'soft' pour pouvoir tirer parti d'une dimension des données plus petite que celle de l'espace ambiant. Nous dérivons des vitesses de contraction optimales pour les loi a posteriori tempérée. Les processus gaussiens profonds sont les homologues bayésiens des célèbres réseaux neuronaux profonds. Nous prouvons que, en tant qu'élément de base dans une telle construction, il donne également des vitesses adaptatives sous des hypothèses de structure de composition du paramètre. En ce qui concerne la QI, les méthodes bayésiennes sont souvent louées pour la solution qu'elles fournissent avec la définition des ensembles de crédibilité. Nous prouvons que ces ensembles construits sous OPT sont des ensembles de confiance avec un bon niveau de confiance et une bonne taille en norme infine sous des conditions qualitatives d'auto-similarité. De plus, nous menons une étude théorique de l'QI pour les distances de Wasserstein Wp et mettons en lumière un nouveau phénomène. En dimensions inférieures à 4, il est toujours possible de construire des ensembles de confiance dont les rayons en distance Wp, p>1, s'adaptent à n'importe quelles régularités (sans hypothèses qualitatives). Cela contraste fortement avec la théorie habituelle en norme Lp, où des concessions doivent être faites.