Thèse soutenue

Modélisation bayésienne de données avec erreurs de mesure et de données manquantes dans un contexte épidémiologique

FR
Auteur / Autrice : Isabelle Deltour
Direction : Sylvia Richardson
Type : Thèse de doctorat
Discipline(s) : Biostatistique, santé publique
Date : Soutenance en 1999
Etablissement(s) : Paris 11
Partenaire(s) de recherche : Laboratoire : Institut national de la santé et de la recherche médicale. Unité (France822)
Jury : Président / Présidente : Jean Maccario

Résumé

FR  |  
EN

Nous développons une modélisation bayésienne dans un contexte de données mesurées avec erreurs ou de données manquantes. Le cadre d'application est celui d'enquêtes épidémiologiques. La modélisation bayésienne introduit explicitement des quantités vraies inconnues qui sont traitées comme des variables aléatoires. On exprime toute l'information disponible sur le processus de mesure ou de données manquantes par des sous-modèles stochastiques. Ils sont reliés par des hypothèses d'indépendance conditionnelle. L'inférence fondée sur la loi a posteriori multidimensionnelle complexe, nécessite la programmation d'algorithmes MCMC. Les parties 1 et 2 concernent les erreurs de mesure dans un contexte de régression. Les performances de la modélisation bayésienne complète qui intègre les incertitudes sur les quantités inconnues sont comparées sur des simulations à la méthode de "régression­ calibration", naturelle mais approximative. On montre que l'inférence bayésienne complète est meilleure uniquement si les coefficients de régression sont grands. On propose aussi une modélisation intermédiaire presque aussi performante. Ensuite, on étudie le risque de cancer des survivants des bombes atomiques, en lien avec leur exposition aux irradiations. Cette exposition est mesurée avec erreur et on met en application la modélisation intermédiaire à cause de la nature groupée des données. On obtient sensiblement les mêmes résultats que ceux rapportés dans la littérature avec la méthode de "régression-calibration" , ce qui est cohérent avec les résultats de la partie 1. En partie 3, on propose une modélisation bayésienne pour prendre en compte des données aléatoirement manquantes partiellement informatives, dans un contexte longitu­ dinal. On compare notre modélisation à une méthode d'imputation multiple, l'algorithme SEM. Le cadre d 'application est un modèle markovien sur les stades d'impaludation (partiellement observés) dans une cohorte d'enfants camerounais