Estimation des moindres carrés d'une densité discrète sous contrainte de k-monotonie et bornes de risque. Application à l'estimation du nombre d'espèces dans une population.

par Jade Giguelay

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Christophe Giraud.

Soutenue le 27-09-2017

à Paris Saclay , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) , en partenariat avec Laboratoire de mathématiques d'Orsay (1998-....) (laboratoire) et de Université Paris-Sud (établissement opérateur d'inscription) .

Le président du jury était Pascal Massart.

Le jury était composé de Christophe Giraud, Pascal Massart, Fadoua Balabdaoui, Sylvie Huet, Cécile Durot, Béatrice Laurent.

Les rapporteurs étaient Fadoua Balabdaoui, John Bunge.


  • Résumé

    Cette thèse est une contribution au domaine de l'estimation non-paramétrique sous contrainte de forme. Les fonctions sont discrètes et la forme considérée, appelée k-monotonie, k désignant un entier supérieur à 2, est une généralisation de la convexité. L'entier k constitue un indicateur du degré de creux d'une fonction convexe. Le manuscrit est structuré en trois parties en plus de l'introduction, de la conclusion et d'une annexe.Introduction :L'introduction comprend trois chapitres. Le premier présente un état de l'art de l'estimation de densité sous contrainte de forme. Le second est une synthèse des résultats obtenus au cours de la thèse, disponible en français et en anglais. Enfin, le Chapitre 3 regroupe quelques notations et des résultats mathématiques utilisés au cours du manuscrit.Partie I : Estimation d'une densité discrète sous contrainte de k-monotonieDeux estimateurs des moindres carrés d'une distribution discrète p* sous contrainte de k-monotonie sont proposés. Leur caractérisation est basée sur la décomposition en base de spline des suites k-monotones, et sur les propriétés de leurs primitives. Les propriétés statistiques de ces estimateurs sont étudiées. Leur qualité d'estimation, en particulier, est appréciée. Elle est mesurée en terme d'erreur quadratique, les deux estimateurs convergent à la vitesse paramétrique. Un algorithme dérivé de l'Algorithme de Réduction de Support est implémenté et disponible au R-package pkmon. Une étude sur jeux de données simulés illustre les propriétés de ces estimateurs. Ce travail a été publié dans Electronic Journal of Statistics (Giguelay, 2017).Partie II : Calculs de bornes de risqueDans le premier chapitre de la Partie II, le risque quadratique de l'estimateur des moindres carrés introduit précédemment est borné. Cette borne est adaptative en le sens qu'elle dépend d'un compromis entre la distance de p* à la frontière de l'ensemble des densités k-monotones à support fini, et de la complexité (en terme de décomposition dans la base de spline) des densités appartenant à cet ensemble qui sont suffisamment proches de p*. La méthode est basée sur une formulation variationnelle du risque proposée par Chatterjee (2014) etgénéralisée au cadre de l'estimation de densité. Par la suite, les entropies à crochet des espaces fonctionnels correspondants sont calculées afin de contrôler le supremum de processus empiriques impliqué dans l'erreur quadratique. L'optimalité de la borne de risque est ensuite discutée au regard des résultats obtenus dans le cas continu et dans le cadre de la régression.Dans le second chapitre de la Partie II, des résultats complémentaires sur les entropies à crochet pour les espaces de fonctions k-monotones sont donnés.Partie III : Estimation du nombre d'espèces dans une population et tests de k-monotonieLa dernière partie traite du problème de l'estimation du nombre d'espèces dans une population. La modélisation choisie est celle d'une distribution d'abondance commune à toutes les espèces et définie comme un mélange. La méthode proposée repose sur l'hypothèse de k-monotonie d'abondance. Cette hypothèse permet de rendre le problème de l'estimation du nombre d'espèces identifiable. Deux approches sont proposées. La première est basée sur l'estimateur des moindres carrés sous contrainte de k-monotonie, tandis que la seconde est basée sur l'estimateur empirique. Les deux estimateurs sont comparés sur une étude sur données simulées. L'estimation du nombre d'espèces étant fortement dépendante du degré de k-monotonie choisi dans le modèle, trois procédures de tests multiples sont ensuite proposées pour inférer le degré k directement sur la base des observations. Le niveau et la puissance de ces procédures sont calculés, puis évalués au moyen d'une étude sur jeux de données simulés et la méthode est appliquée sur des jeux de données réels issus de la littérature.

  • Titre traduit

    Least-squares estimation of a discrete density under constraint of k-monotonicity and risk bounds. Application for the estimation of the number of species in a population.


  • Résumé

    This thesis belongs to the field of nonparametric density estimation under shape constraint. The densities are discrete and the form is k-monotonicity, k>1, which is a generalization of convexity. The integer k is an indicator for the hollow's degree of a convex function. This thesis is composed of three parts, an introduction, a conclusion and an appendix.Introduction :The introduction is structured in three chapters. First Chapter is a state of the art of the topic of density estimation under shape constraint. The second chapter of the introduction is a synthesis of the thesis, available in French and in English. Finally Chapter 3 is a short chapter which summarizes the notations and the classical mathematical results used in the manuscript.Part I : Estimation of a discrete distribution under k-monotonicityconstraintTwo least-square estimators of a discrete distribution p* under constraint of k-monotonicity are proposed. Their characterisation is based on the decomposition on a spline basis of k-monotone sequences, and on the properties of their primitives. Their statistical properties are studied, and in particular their quality of estimation is measured in terms of the quadratic error. They are proved to converge at the parametric rate. An algorithm derived from the support reduction algorithm is implemented in the R-package pkmon. A simulation study illustrates the properties of the estimators. This piece of works, which constitutes Part I of the manuscript, has been published in ElectronicJournal of Statistics (Giguelay, 2017).Part II : Calculation of risks boundsIn the first chapter of Part II, a methodology for calculating riskbounds of the least-square estimator is given. These bounds are adaptive in that they depend on a compromise between the distance of p* on the frontier of the set of k-monotone densities with finite support, and the complexity (linked to the spline decomposition) of densities belonging to this set that are closed to p*. The methodology based on the variational formula of the risk proposed by Chatterjee (2014) is generalized to the framework of discrete k-monotone densities. Then the bracketting entropies of the relevant functionnal space are calculating, leading to control the empirical process involved in the quadratic risk. Optimality of the risk bound is discussed in comparaison with the results previously obtained in the continuous case and for the gaussian regression framework. In the second chapter of Part II, several results concerningbracketting entropies of spaces of k-monotone sequences are presented.Part III : Estimating the number of species in a population and tests of k-monotonicityThe last part deals with the problem of estimating the number ofpresent species in a given area at a given time, based on theabundances of species that have been observed. A definition of ak-monotone abundance distribution is proposed. It allows to relatethe probability of observing zero species to the truncated abundancedistribution. Two approaches are proposed. The first one is based on the Least-Squares estimator under constraint of k-monotonicity, the second oneis based on the empirical distribution. Both estimators are comparedusing a simulation study. Because the estimator of the number ofspecies depends on the value of the degree of monotonicity k, we proposea procedure for choosing this parameter, based on nested testingprocedures. The asymptotic levels and power of the testing procedureare calculated, and the behaviour of the method in practical cases isassessed on the basis of a simulation study.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Sud. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.