Analyse factorielle de données structurées en groupes d'individus : application en biologie

par Aida Eslami

Thèse de doctorat en Biologie. Mathématiques et applications

Soutenue le 21-10-2013

à Rennes 1 , dans le cadre de École doctorale Vie-Agro-Santé (Rennes) , en partenariat avec Agence nationale de sécurité sanitaire. Laboratoire de Ploufragan - Plouzané (laboratoire) et de Université européenne de Bretagne (PRES) .


  • Résumé

    Ce travail concerne les analyses visant à étudier les données où les individus sont structurés en différents groupes (données multi-groupes). La thèse aborde la question des données multi-groupes ayant une structure en un seul tableau, plusieurs tableaux, trois voies et deux blocs (régression). Cette thèse présente plusieurs méthodes d'analyse de données multi-groupes dans le cadre de l'analyse factorielle. Notre travail comporte trois parties. La première partie traite de l'analyse de données multi-groupes (un bloc de variables divisé en sous-groupes d'individus). Le but est soit descriptif (analyse intra-groupes) ou prédictif (analyse discriminante ou analyse inter-groupe). Nous commençons par une description exhaustive des méthodes multi-groupes. En outre, nous proposons deux méthodes : l'Analyse Procrustéenne duale et l'Analyse en Composantes Communes et Poids Spécifiques duale. Nous exposons également de nouvelles propriétés et algorithmes pour l'Analyse en Composantes Principales multi-groupes. La deuxième partie concerne l'analyse multi-blocs et multi-groupes et l'analyse trois voies et multi-groupes. Nous présentons les méthodes existantes. Par ailleurs, nous proposons deux méthodes, l'ACP multi-blocs et multi-groupes et l'ACP multi-blocs et multi-groupes pondérée, vues comme des extensions d'Analyse en Composantes Principales multi-groupes. L'analyse en deux blocs et multi-groupes est prise en compte dans la troisième partie. Tout d'abord, nous présentons des méthodes appropriées pour trouver la relation entre un ensemble de données explicatives et un ensemble de données à expliquer, les deux tableaux présentant une structure de groupe entre les individus. Par la suite, nous proposons quatre méthodes pouvant être vues comme des extensions de la régression PLS au cas multi-groupes, et parmi eux, nous en sélectionnons une et la développons dans une stratégie de régression. Les méthodes proposées sont illustrées sur la base de plusieurs jeux de données réels dans le domaine de la biologie. Toutes les stratégies d'analyse sont programmées sur le logiciel libre R.

  • Titre traduit

    Multivariate data analysis of multi-group datasets : application to biology


  • Résumé

    This work deals with multi-group analysis, to study multi-group data where individuals are a priori structured into different groups. The thesis tackles the issue of multi-group data in a multivariate, multi-block, three-way and two-block (regression) setting. It presents several methods of multi-group data analysis in the framework of factorial analysis. It includes three sections. The first section concerns the case of multivariate multi-group data. The aim is either descriptive (within-group analysis) or predictive (discriminant analysis, between-group analysis). We start with a comprehensive review of multi-group methods. Furthermore, we propose two methods namely Dual Generalized Procrustes Analysis and Dual Common Component and Specific Weights Analysis. We also exhibit new properties and algorithms for multi-group Principal Component Analysis. The second section deals with multiblock multi-group and three-way multi-group data analysis. We give a general review of multiblock multi-group methods. In addition, we propose two methods, namely multiblock and multi-group PCA and Weighted-multiblock and multi-group PCA, as extensions of multi-group Principal Component Analysis. The two-block multi-group analysis is taken into account in the third section. Firstly, we give a presentation of appropriate methods to investigate the relationship between an explanatory dataset and a dependent dataset where there is a group structure among individuals. Thereafter, we propose four methods, namely multi-group PLS, in the PLS approach, and among them we select one and develop it into a regression strategy. The proposed methods are illustrated on the basis of several real datasets in the field of biology. All the strategies of analysis are implemented within the framework of R.

Consulter en bibliothèque

La version de soutenance existe

Informations

  • Détails : 1 vol. (VIII-191 p.)
  • Annexes : Bibliogr. p. 177-184. Index

Où se trouve cette thèse\u00a0?