Exploration d’un graphe aléatoire par des méthodes Respondent Driven Sampling (RDS)
Auteur / Autrice : | Thi Phuong Thuy Vo |
Direction : | Jean-Stéphane Dhersin, Viet Chí Tran |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 19/11/2020 |
Etablissement(s) : | Paris 13 |
Ecole(s) doctorale(s) : | École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Analyse, géométrie et applications (LAGA) (Villetaneuse, Seine-Saint-Denis) |
Jury : | Président / Présidente : Amandine Véber |
Examinateurs / Examinatrices : Bénédicte Haas, Laurent Ménard, Pierre-André Zitt, Hélène Guérin | |
Rapporteur / Rapporteuse : Stéphane Robin, Adrian Röllin |
Mots clés
Résumé
L’échantillonnage en fonction des répondants (“Respondent Driven Sampling'', RDS)peut être utilisé pour découvrir des réseaux sociaux dans des populations cachées. Ceci peut conduire à l’étude d’une chaîne de Markov sur un graphe aléatoire dont les sommets représentent les individus et dont les arêtes décrivent les relations entre les deux personnes qu’elles relient. Les personnes interrogées sont invitées à indiquer leurs partenaires et un certain nombre de coupons sont remis à certaines de ces personnes. Par chaînage on peut ainsi retrouver les noeuds cachés dans la population en suivant au hasard les arêtes du réseau social sous-jacent. Nous considérons un processus renormalisé de la chaîne de référence sur le modèle Erdös-Rényi, puis sur le modèle à blocs stochastiques (“Stochastic Block Model'',SBM), qui en est une extension lorsque les populations sont partitionnées en communautés. La difficulté réside dans la gestion de l’hétérogénéité du graphe. Dans notre étude, le graphe et la marche aléatoire sont construits simultanément. Nous démontrons que lorsque la taille de la population est grande et les graphes sparses, le processus aléatoire représentant la fraction du graphe découverte, correctement normalisé, se comporte comme une courbe déterministe qui est la solution unique d’un système d’ODE. Par ailleurs, nous nous intéressons également au problème de récupérer des informations statistiques sur un modèle à bloc stochastique à partir du sous-graphe découvert par une marche aléatoire (correspondant à un RDS à un coupon). Nous considérons ici le cas dense où le réseau aléatoire peut être approché par un graphon. Tout d’abord, nous écrivons la vraisemblance du sous-graphe découvert par la marche aléatoire: des biais émergent car les “hubs” et les types majoritaires sont plus susceptibles d’être échantillonnés. Même dans le cas où les types sont observés, l’estimateur du maximum de vraisemblance n’est plus explicite. Lorsque les types de sommets ne sont pas observés, nous utilisons un algorithme SAEM (“Stochastic Approximation version of Expectation-Maximization algorithm”) pour maximiser la vraisemblance. Deuxièmement, nous proposons une stratégie d’estimation différente en utilisant les nouveaux résultats d’Athreya et Röllin. Elle consiste à dé-biaiser l’estimateur EM variationnel proposé par Daudin et al. et qui ignore les biais.