Thèse soutenue

Méthode généralisée de partage des poids et intégration de données pour l’amélioration de la précision des estimateurs de trafic postal en France

FR  |  
EN
Auteur / Autrice : Estelle Medous
Direction : Anne Ruiz-GazenCamelia Goga
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 14/12/2023
Etablissement(s) : Toulouse 1
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Equipe de recherche : TSE-R (Toulouse)

Résumé

FR  |  
EN

La Poste française a mis en place une étude par sondage pour effectuer un suivi de la distributiondes objets postaux en France Métropolitaine. Le but des travaux réalisés lors de cette thèse est d’améliorerla précision des estimateurs du trafic total postal. La Poste souhaite observer des tournées de facteurs, maisne peut pas les échantillonner directement. Elle a donc mis en place un tirage indirect et utilise une MéthodeGénéralisée de Partage des Poids (MGPP) double, inspirée de la MGPP simple proposée par Deville andLavallée (2006), pour calculer les estimations du trafic postal. Dans un premier temps, nous étudions dansle cadre de La Poste l’existence d’une MGPP simple optimale, au sens que la variance des estimateursest minimale, et la comparons aux estimateurs postaux actuels. La MGPP double, telle qu’utilisée à LaPoste, est plus facile à mettre en place que la MGPP simple, mais est moins précise que la MGPP simpleoptimale. Nous nous penchons donc sur la question d’une MGPP double optimale dans le cas de La Posteet proposons des alternatives basées sur l’utilisation de données auxiliaires. Dans un deuxième temps, nousnous intéressons à l’Intégration Statistique de Données (ISD), qui consiste à utiliser un échantillon nonprobabiliste,généralement une base de données massives, et un échantillon probabiliste pour construiredes estimateurs de totaux. La littérature sur l’ISD traite majoritairement de cas où la variable d’intérêtest disponible dans la base de données massives. Les données massives de La Poste, intitulées TraitementAutomatisé de l’Enveloppe (TAE), sont récoltées sur les objets triés par machine et ne contiennent pasd’information sur certaines variables d’intérêt. Des méthodologies adaptées au cas particulier de La Postedoivent donc être développées. Nous proposons une amélioration des estimateurs présentés dans Kim andTam (2021) en utilisant une famille de prédicteurs, dits prédicteurs QR, proposée par Wright (1983), pourprédire le total des variables d’intérêt sur TAE. Nous utilisons un estimateur de Hájek pour estimer le totaldes variables d’intérêt sur le complémentaire de TAE. Nous étudions les propriétés théoriques des estimateursQR et préconisons l’utilisation de l’estimateur cosmétique qui est un cas particulier d’estimateur QR. Lesrésultats présentés dans cette thèse sont illustrés par des études Monte-Carlo basées sur des données simuléeset sur des données historiques postales, afin d’évaluer le gain de précision potentiel apporté par l’utilisationdes différents estimateurs que nous proposons.