Thèse soutenue

Méthodes de sélection de variables pour l’analyse de données provenant de sources différentes et présentant une structure de groupe de variables.

FR  |  
EN
Auteur / Autrice : Camilo Broc
Direction : Benoit Liquet
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 14/11/2019
Etablissement(s) : Pau en cotutelle avec Universidad del País Vasco. Facultad de ciencias
Ecole(s) doctorale(s) : École doctorale sciences exactes et leurs applications (Pau, Pyrénées Atlantiques ; 1995-)
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques et de leurs applications (Pau) - Laboratoire de Mathématiques et de leurs Applications [Pau] / LMAP
Jury : Président / Présidente : Hélène Jacqmin-Gadda
Examinateurs / Examinatrices : Benoit Liquet

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Durant les dernières décennies, la quantité de données disponibles en génétique a consi-dérablement augmenté. D’une part, une amélioration des technologies de séquençage demolécules a permis de réduire fortement le coût d’extraction du génome humain. D’autrepart, des consortiums internationaux d’institutions ont permis la mise en commun de lacollecte de données sur de larges populations. Cette quantité de données nous permetd’espérer mieux comprendre les mécanismes régissant le fonctionnement de nos cellules.Dans ce contexte, l’épidémiologie génétique est un domaine cherchant à déterminer larelation entre des caractéristiques génétiques et l’apparition d’une maladie. Des méthodesstatistiques spécifiques à ce domaine ont dû être développées, en particulier à cause desdimensions que les données présentent : en génétique, l’information est contenue dans unnombre de variables grand par rapport au nombre d’observations.Dans cette dissertation, deux contributions sont présentées. Le premier projet appeléPIGE (Pathway-Interaction Gene Environment) développe une méthode pour déterminerdes interactions gène-environnement. Le second projet vise à développer une méthode desélection de variables adaptée à l’analyse de données provenant de différentes études etprésentant une structure de groupe de variables.Le document est divisé en six parties. Le premier chapitre met en relief le contexte,d’un point de vue à la fois biologique et mathématique. Le deuxième chapitre présente lesmotivations de ce travail et la mise en œuvre d’études en épidémiologie génétique. Le troi-sième chapitre aborde les questions relatives à l’analyse d’interactions gène-environnementet la première contribution de la thèse y est présentée. Le quatrième chapitre traite desproblématiques de méta-analyses. Le développement d’une nouvelle méthode de réductionde dimension répondant à ces questions y est présenté. Le cinquième chapitre met en avantla pertinence de la méthode dans des cas de pleiotropie. Enfin, le sixième et dernier chapitredresse un bilan du travail présenté et dresse des perspectives pour le futur.