Apprentissage statistique pour l'analyse multivariée de données de comptage de grande dimension

par Bastien Batardiere

Projet de thèse en Mathématiques appliquées

Sous la direction de Julien Chiquet.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) , en partenariat avec Laboratoire Mathématiques et Informatique Appliquées (Paris) (laboratoire) , Statistique et Génome (equipe de recherche) et de Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....) (référent) depuis le 18-10-2021 .


  • Résumé

    Les technologiques de séquençage à haut débit permettent dorénavant de quantifier au niveau des cellules individuelles diverses mesures issues du génome, ce qui induit des jeux de données où le nombre d'individus et de variables sont grands (n = 100, 000s, p = 10, 000s). De nombreux travaux se sont positionnés en biologie computationnelle pour attaquer les questions de réduction de dimension, de clustering, de représentation ou d'intégration de données multiples entre autres. La thèse, soutenue par le projet ANR SingleStatOmics, vise à proposer des outils d'apprentissage statistique insipirés d'approches probabilistes pour participer à cet effort. Une première tâche sera d'adapter les modèles de comptage multivariées à la dimensionnalité des jeux de données de cellulle unique, en particulier les modèles Poisson log-normal, en recourant à des techniques d'optimisation pour des estimateurs approchés (e.g. variationnel) ou exacts (mêlant gradient stochastique et échantillonage préférentiel). Une étude empirique et théorique de ces estimateurs est envisagée. Dans un deuxième temps, nous proposeront d'autres modèles à variables latentes permettant d'ajuster des données binaires et/ou collectées sous forme de séries temporelles : la contrepartie Bernoulli du modèle Poisson lognormal ainsi qu'une version probabiliste de l'ACP fonctionnelle pour données de comptage binaire ou entière. Nous proposerons un modèle d'intégration de données sur la base de ces proposition (binaire, comptage, continue). Les performances de ces modèles seront comparées aux méthodes d'apprentissage profond, dont les versions les moins gourmandes en données peuvant être ajustées sur les données de cellule unique.

  • Titre traduit

    Machine learning for Multivariate Analysis of high-dimensional count data


  • Résumé

    High throughput sequencing technologies now allow to quantify at the level of individual cells various measures from the genome, which induces datasets where the number of individuals and variables are large (n = 100, 000s, p = 10, 000s). Numerous works have been positioned in computational biology to tackle the issues of dimension reduction, clustering, representation or integration of multiple data among others. The thesis, supported by the ANR SingleStatOmics project, aims at proposing statistical learning tools inspired by probabilistic approaches to participate to this effort. A first task will be to adapt multivariate counting models to the dimensionality of single cell datasets, in particular lognormal Poisson models, using optimization techniques for approximate (e.g.,variational) or exact estimators (mixing stochastic gradient and importance sampling). An empirical and theoretical study of these estimators is considered. In a second step, we will propose other latent variable models to fit binary and/or time series data : the Bernoulli counterpart of the lognormal Poisson model and a probabilistic version of the functional PCA for binary or integer count data. We will propose a data integration model based on these proposals (binary, count, continuous). The performance of these models will be compared to deep learning methods, whose less data-intensive versions can be fitted on single cell data.