Analyses bayesiennes du choix de modèles en épidémiologie : sélection de variables et modélisation de l'hétérogénéité pour des évènements

par Valérie Viallefont

Thèse de doctorat en Biostatistique, santé publique

Sous la direction de Sylvia Richardson.

Soutenue en 2000

à Paris 11 .

Le président du jury était Jean Maccario.

Le jury était composé de Jean Maccario, Gilles Celeux, Thomas Duncan, Denis Hémon, Adrian E. Raftery, Christian P. Robert.

Les rapporteurs étaient Gilles Celeux, Thomas Duncan.


  • Résumé

    Cette thèse se décompose en deux parties qui traitent la question du choix modèles dans deux problématiques différentes. Dans la première partie, on s'intéresse, pour les modèles de régression logis multivariée, à différentes stratégies de sélection de variables associées à l'apparition d'une maladie. Les méthodes les plus fréquemment mises en œuvre à l'heure actuelle consistent à sélectionner certaines variables dans un modèle final unique, modèle dans lequel sont ensuite estimés les paramètres et leur variance. Différents critères de sélection existent et la plupart d'entre eux reposent sur une comparaison du degré de signification de tests à une valeur seuil. On s'intéresse aux performances auc performances de ces approches par rapport à celles d'une méthode bayésienne dans laquelle on considère tout un ensemble de modèles. A chaque modèle est associé sa probabilité a posteriori. Cette approche permet d'estimer la probabilité de l'existence d'une association entre chaque variable et l'apparition de la maladie, et de calculer des estimations globale des paramètres. Deux schémas de simulations sont envisagés pour cette comparaison : l'un évoque un cas d'école où l'on s'intéresse à un facteur de risque en présence d'un unique facteur de confusion potentiel, l'autre caractérise une enquête épidémiologique avec un grand nombre de facteurs de risque possibles. Les critères de comparaison portent sur le biais moyen dans l'estimation des coefficients, les pourcentages d’erreurs de première et seconde espèces ou leur équivalent bayésien, et l'expression du degré d'incertitude. La méthode bayésienne fournit notamment une appréciation plus explicite de l'incertitude sur les conclusions. Dans la deuxième partie, on s'intéresse au cas où des données relatives à des événements rares présentent une trop forte hétérogénéité pour être modélisées par une seule distribution de Poisson. On fait alors l'hypothèse qu'elles sont issues de mélange de distributions de Poisson. On propose d'estimer conjointement, dans un modèle hiérarchique bayésien, le nombre de composantes du mélange et les proportions et paramètres de chacune, par les méthodes de Monte Carlo par Chaîne de Markov (MCMC). L'estimation du nombre de composantes nécessite que la dimension de l'espace des paramètres puisse varier : pour ceci on utilise le principe du "Saut Reversible". On illustre la difficulté de trouver une loi a priori faiblement informative pour les paramètres de Poisson en étudiant la sensibilité des résultats au choix de cette loi a priori et de ses paramètres. On propose différentes transformations lors du changement de dimension de l'espace des paramètres et on s'intéresse à leur influence sur les performances de l'algorithme, notamment son caractère mélangeant. Enfin on écrit deux modèles, de prise en compte de covariables, dont l'effet est soit homogène soit hétérogène sur les composantes du mélange. Les comparaisons sont menées sur des jeux de données simulés, et le modèle est finalement illustré sur des données réelles de nature épidémiologique concernant des cas de cancers digestifs en France, puis des données d'accidents de la route.

  • Titre traduit

    Bayesian madel choice in an epidemiological context : variable selection and mixtures for heterogeneous Poisson data.


  • Résumé

    This dissertation has two separated parts. In the first part, we compare different strategies for variable selection in a multi­variate logistic regression model. Covariate and confounder selection in case-control studies is often carried out using either a two-step method or a stepwise variable selection method. Inference is then carried out conditionally on the selected model, but this ignores the madel uncertainty implicit in the variable selection process, and so underestimates uncertainty about relative risks. It is well known, and showed again in our study, that the ρ-values computed after variable selection can greatly overstate the strength of conclusions. We propose Bayesian Model Averaging as a formal way of taking account of madel uncertainty in a logistic regression context. The BMA methods, that allows to take into account several models, each being associated with its posterior probability, yields an easily interpreted summary, the posterior probability that a variable is a risk factor, and its estimate averaged over the set of models. We conduct two comparative simulations studies : the first one has a simple design including only one risk factor and one confounder, the second one mimics a epidemiological cohort study dataset, with a large number of potential risk factors. Our criteria are the mean bias, the rate of type I and type II errors, and the assessment of uncertainty in the results, which is bath more accurate and explicit under the BMA analysis. The methods are applied and compared in the context of a previously published case-control study of cervical cancer. The choice of the prior distributions are discussed. In the second part, we focus on the modelling of rare events via a Poisson distribution, that sometimes reveals substantial over-dispersion, indicating that sorme un­ explained discontinuity arises in the data. We suggest to madel this over-dispersion by a Poisson mixture. In a hierarchical Bayesian model, the posterior distributions of he unknown quantities in the mixture (number of components, weights, and Poisson parameters) can be estimated by MCMC algorithms, including reversible jump algothms which allows to vary the dimension of the mixture. We focus on the difficulty of finding a weakly informative prior for the Poisson parameters : different priors are detailed and compared. Then, the performances of different maves created for changing dimension are investigated. The model is extended by the introduction of covariates, with homogeneous or heterogeneous effect. Simulated data sets are designed for the different comparisons, and the model is finally illustrated in two different contexts : an ecological analysis of digestive cancer mortality along the coasts of France, and a dataset concerning counts of accidents in road-junctions.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (169 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 151-162 (152 réf.)

Où se trouve cette thèse\u00a0?