Thèse soutenue

Régression pénalisée de type Lasso pour l’analyse de données biologiques de grande dimension : application à la charge virale du VIH censurée par une limite de quantification et aux données compositionnelles du microbiote

FR  |  
EN
Auteur / Autrice : Perrine Soret
Direction : Marta Avalos
Type : Thèse de doctorat
Discipline(s) : Santé publique Biostatistique
Date : Soutenance le 28/11/2019
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale Sociétés, politique, santé publique (Bordeaux)
Partenaire(s) de recherche : Laboratoire : Bordeaux population Health
Jury : Président / Présidente : Virginie Rondeau
Examinateurs / Examinatrices : Marta Avalos, Julien Chiquet, Philippe Flandre, Rodolphe Thiébaut, Cristian Meza
Rapporteurs / Rapporteuses : Julien Chiquet, Philippe Flandre

Résumé

FR  |  
EN

Dans les études cliniques et grâce aux progrès technologiques, la quantité d’informations recueillies chez un même patient ne cesse de croître conduisant à des situations où le nombre de variables explicatives est plus important que le nombre d’individus. La méthode Lasso s'est montrée appropriée face aux problèmes de sur-ajustement rencontrés en grande dimension.Cette thèse est consacrée à l'application et au développement des régressions pénalisées de type Lasso pour des données cliniques présentant des structures particulières.Premièrement, chez des patients atteints du virus de l'immunodéficience humaine des mutations dans les gènes du virus peuvent être liées au développement de résistances à tel ou tel traitement.La prédiction de la charge virale à partir des mutations (potentiellement grand) permet d'orienter le choix des traitements.En dessous d'un seuil, la charge virale est indétectable, on parle de données censurées à gauche.Nous proposons deux nouvelles approches Lasso basées sur l'algorithme Buckley-James consistant à imputer les valeurs censurées par une espérance conditionnelle. En inversant la réponse, on peut se ramener à un problème de censure à droite, pour laquelle des estimations non-paramétriques de l'espérance conditionnelle ont été proposées en analyse de survie. Enfin, nous proposons une estimation paramétrique qui repose sur une hypothèse Gaussienne.Deuxièmement, nous nous intéressons au rôle du microbiote dans la détérioration de la santé respiratoire. Les données du microbiote sont sous forme d'abondances relatives (proportion de chaque espèce par individu, dites données compositionnelles) et elles présentent une structure phylogénétique.Nous avons dressé un état de l'art des méthodes d'analyses statistiques de données du microbiote. En raison de la nouveauté, peu de recommandations existent sur l'applicabilité et l'efficacité des méthodes proposées. Une étude de simulation nous a permis de comparer la capacité de sélection des méthodes de pénalisation proposées spécifiquement pour ce type de données.Puis nous appliquons ces recherches à l'analyse de l'association entre les bactéries/champignons et le déclin de la fonction pulmonaire chez des patients atteints de la mucoviscidose du projet MucoFong.