Méthodes de sondage pour les données massives
Auteur / Autrice : | Antoine Rebecq |
Direction : | Patrice Bertail |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées et application des mathématiques |
Date : | Soutenance le 15/02/2019 |
Etablissement(s) : | Paris 10 |
Ecole(s) doctorale(s) : | École doctorale Connaissance, langage, modélisation (Nanterre) |
Partenaire(s) de recherche : | Laboratoire : Modal'X (Nanterre). Université Paris Nanterre |
Jury : | Président / Présidente : Éric Matzner-Løber |
Examinateurs / Examinatrices : Patrice Bertail, Éric Matzner-Løber, Yves Tillé, Anne Ruiz-Gazen, Xavier Mary, Emilie Chautru, Emmanuel Gros | |
Rapporteurs / Rapporteuses : Yves Tillé, Anne Ruiz-Gazen |
Mots clés
Résumé
Cette thèse présente trois parties liées à la théorie des sondages. La première partie présente deux résultats originaux de sondages qui ont eu des applications pratiques dans des enquêtes par sondage de l'Insee. Le premier article présente un théorème autorisant un plan de sondage stratifié constituant un compromis entre la dispersion des poids et l'allocation de précision optimale pour une variable d'intérêt spécifique. Les données d’enquête sont souvent utilisées pour estimer nombre de totaux ou modèles issus de variables exclues du design. La précision attendue pour ces variables est donc faible, mais une faible dispersion des poids permet de limiter les risques qu'une estimation dépendant d'une de ces variables ait une très mauvaise précision. Le second article concerne le facteur de repondération dans les estimateurs par calage. On propose un algorithme efficace capable de calculer les facteurs de poids les plus rapprochés autour de 1 tels qu'une solution au problème de calage existe. Cela permet de limiter les risques d'apparition d'unités influentes, particulièrement pour l'estimation sur des domaines. On étudie par simulations sur données réelles les propriétés statistiques des estimateurs obtenus. La seconde partie concerne l'étude des propriétés asymptotique des estimateurs sur données issues de sondage. Celles-ci sont difficiles à étudier en général. On présente une méthode originale qui établit la convergence faible vers un processus gaussien pour le processus empirique d'Horvitz-Thompson indexé par des classes de fonction, pour de nombreux algorithmes de sondage différents utilisés en pratique. Dans la dernière partie, on s'intéresse à des méthodes de sondage pour des données issues de graphes, qui ont des applications pratiques lorsque les graphes sont de taille telles que leur exploitation informatique est coûteuse. On détaille des algorithmes de sondage permettant d'estimer des statistiques d'intérêt pour le réseaux. Deux applications, à des données de Twitter puis à des données simulées, concluent cette partie.