Variable selection for data aggregated from different sources with group of variable structure

par Camilo Broc

Thèse de doctorat en Mathématiques

Sous la direction de Benoit Liquet.

Soutenue le 14-11-2019

à Pau en cotutelle avec l'Universidad del País Vasco. Facultad de ciencias , dans le cadre de École doctorale sciences exactes et leurs applications (Pau, Pyrénées Atlantiques) , en partenariat avec Laboratoire de mathématiques et de leurs applications (Pau) (laboratoire) et de Laboratoire de Mathématiques et de leurs Applications [Pau] / LMAP (laboratoire) .

Le président du jury était Hélène Jacqmin-Gadda.

Le jury était composé de Benoit Liquet.

  • Titre traduit

    Méthodes de sélection de variables pour l’analyse de données provenant de sources différentes et présentant une structure de groupe de variables.


  • Résumé

    Durant les dernières décennies, la quantité de données disponibles en génétique a consi-dérablement augmenté. D’une part, une amélioration des technologies de séquençage demolécules a permis de réduire fortement le coût d’extraction du génome humain. D’autrepart, des consortiums internationaux d’institutions ont permis la mise en commun de lacollecte de données sur de larges populations. Cette quantité de données nous permetd’espérer mieux comprendre les mécanismes régissant le fonctionnement de nos cellules.Dans ce contexte, l’épidémiologie génétique est un domaine cherchant à déterminer larelation entre des caractéristiques génétiques et l’apparition d’une maladie. Des méthodesstatistiques spécifiques à ce domaine ont dû être développées, en particulier à cause desdimensions que les données présentent : en génétique, l’information est contenue dans unnombre de variables grand par rapport au nombre d’observations.Dans cette dissertation, deux contributions sont présentées. Le premier projet appeléPIGE (Pathway-Interaction Gene Environment) développe une méthode pour déterminerdes interactions gène-environnement. Le second projet vise à développer une méthode desélection de variables adaptée à l’analyse de données provenant de différentes études etprésentant une structure de groupe de variables.Le document est divisé en six parties. Le premier chapitre met en relief le contexte,d’un point de vue à la fois biologique et mathématique. Le deuxième chapitre présente lesmotivations de ce travail et la mise en œuvre d’études en épidémiologie génétique. Le troi-sième chapitre aborde les questions relatives à l’analyse d’interactions gène-environnementet la première contribution de la thèse y est présentée. Le quatrième chapitre traite desproblématiques de méta-analyses. Le développement d’une nouvelle méthode de réductionde dimension répondant à ces questions y est présenté. Le cinquième chapitre met en avantla pertinence de la méthode dans des cas de pleiotropie. Enfin, le sixième et dernier chapitredresse un bilan du travail présenté et dresse des perspectives pour le futur.


  • Résumé

    During the last decades, the amount of available genetic data on populations has growndrastically. From one side, a refinement of chemical technologies have made possible theextraction of the human genome of individuals at an accessible cost. From the other side,consortia of institutions and laboratories around the world have permitted the collectionof data on a variety of individuals and population. This amount of data raised hope onour ability to understand the deepest mechanisms involved in the functioning of our cells.Notably, genetic epidemiology is a field that studies the relation between the geneticfeatures and the onset of a disease. Specific statistical methods have been necessary forthose analyses, especially due to the dimensions of available data: in genetics, informationis contained in a high number of variables compared to the number of observations.In this dissertation, two contributions are presented. The first project called PIGE (Pathway-Interaction Gene Environment) deals with gene-environment interaction assessments.The second one aims at developing variable selection methods for data which has groupstructures in both the variables and the observations.The document is divided into six chapters. The first chapter sets the background of this work,where both biological and mathematical notations and concepts are presented and gives ahistory of the motivation behind genetics and genetic epidemiology. The second chapterpresent an overview of the statistical methods currently in use for genetic epidemiology.The third chapter deals with the identification of gene-environment interactions. It includesa presentation of existing approaches for this problem and a contribution of the thesis. Thefourth chapter brings off the problem of meta-analysis. A definition of the problem and anoverview of the existing approaches are presented. Then, a new approach is introduced.The fifth chapter explains the pleiotropy studies and how the method presented in theprevious chapter is suited for this kind of analysis. The last chapter compiles conclusionsand research lines for the future.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Pau et des Pays de l'Adour. Service Commun de la Documentation. Pau-SCD-Bib. électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.