Méthodes de sondage pour les données massives

par Antoine Rebecq

Thèse de doctorat en Mathématiques appliquées et application des mathématiques

Sous la direction de Patrice Bertail.

Soutenue le 15-02-2019

à Paris 10 , dans le cadre de École doctorale Connaissance, langage et modélisation (Nanterre) , en partenariat avec Modal'X (Nanterre). Université Paris Nanterre (laboratoire) .

Le président du jury était Éric Matzner-Løber.

Le jury était composé de Patrice Bertail, Éric Matzner-Løber, Yves Tillé, Anne Ruiz-Gazen, Xavier Mary, Emilie Chautru, Emmanuel Gros.

Les rapporteurs étaient Yves Tillé, Anne Ruiz-Gazen.


  • Résumé

    Cette thèse présente trois parties liées à la théorie des sondages. La première partie présente deux résultats originaux de sondages qui ont eu des applications pratiques dans des enquêtes par sondage de l'Insee. Le premier article présente un théorème autorisant un plan de sondage stratifié constituant un compromis entre la dispersion des poids et l'allocation de précision optimale pour une variable d'intérêt spécifique. Les données d’enquête sont souvent utilisées pour estimer nombre de totaux ou modèles issus de variables exclues du design. La précision attendue pour ces variables est donc faible, mais une faible dispersion des poids permet de limiter les risques qu'une estimation dépendant d'une de ces variables ait une très mauvaise précision. Le second article concerne le facteur de repondération dans les estimateurs par calage. On propose un algorithme efficace capable de calculer les facteurs de poids les plus rapprochés autour de 1 tels qu'une solution au problème de calage existe. Cela permet de limiter les risques d'apparition d'unités influentes, particulièrement pour l'estimation sur des domaines. On étudie par simulations sur données réelles les propriétés statistiques des estimateurs obtenus. La seconde partie concerne l'étude des propriétés asymptotique des estimateurs sur données issues de sondage. Celles-ci sont difficiles à étudier en général. On présente une méthode originale qui établit la convergence faible vers un processus gaussien pour le processus empirique d'Horvitz-Thompson indexé par des classes de fonction, pour de nombreux algorithmes de sondage différents utilisés en pratique. Dans la dernière partie, on s'intéresse à des méthodes de sondage pour des données issues de graphes, qui ont des applications pratiques lorsque les graphes sont de taille telles que leur exploitation informatique est coûteuse. On détaille des algorithmes de sondage permettant d'estimer des statistiques d'intérêt pour le réseaux. Deux applications, à des données de Twitter puis à des données simulées, concluent cette partie.

  • Titre traduit

    Sampling methods for big data


  • Résumé

    This thesis presents three different parts with ties to survey sampling theory. In the first part, we present two original results that led to practical applications in surveys conducted at Insee (French official statistics Institute). The first chapter deals with allocations in stratified sampling. We present a theorem that proves the existence of an optimal compromise between the dispersion of the sampling weights and the allocation yielding optimal precision for a specific variable of interest. Survey data are commonly used to compute estimates for variables that were not included in the survey design. Expected precision is poor, but a low dispersion of the weights limits risks of very high variance for one or several estimates. The second chapter deals with reweighting factors in calibration estimates. We study an algorithm that computes the minimal bounds so that the calibration estimators exist, and propose an efficient way of resolution. We also study the statistical properties of estimates using these minimal bounds. The second part studies asymptotic properties of sampling estimates. Obtaining asymptotic guarantees is often hard in practice. We present an original method that establishes weak convergence for the Horvitz-Thompson empirical process indexed by a class of functions for a lot of sampling algorithms used in practice. In the third and last part, we focus on sampling methods for populations that can be described as networks. They have many applications when the graphs are so big that storing and computing algorithms on them are very costly. Two applications are presented, one using Twitter data, and the other using simulated data to establish guidelines to design efficient sampling designs for graphs.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris Nanterre. Service commun de la documentation. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.