Modélisation stochastique de grands jeux de données : applications en écologie et en génétique
Auteur / Autrice : | Raphaël Coudret |
Direction : | Gilles Durrieu, Jérôme Saracco |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 16/09/2013 |
Etablissement(s) : | Bordeaux 1 |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et informatique (Talence, Gironde ; 1991-....) |
Partenaire(s) de recherche : | Laboratoire : Institut de mathématiques de Bordeaux - Institut de Mathématiques de Bordeaux / IMB - CQFD - EPOC |
Jury : | Président / Présidente : Jean Charles Massabuau |
Examinateurs / Examinatrices : Pierrick Legrand | |
Rapporteur / Rapporteuse : Gérard Biau, Stéphane Robin |
Résumé
Deux parties principales composent cette thèse. La première d'entre elles est consacrée à la valvométrie, c'est-à-dire ici l'étude de la distance entre les deux parties de la coquille d'une huître au cours du temps. La valvométrie est utilisée afin de déterminer si de tels animaux sont en bonne santé, pour éventuellement tirer des conclusions sur la qualité de leur environnement. Nous considérons qu'un processus de renouvellement à quatre états sous-tend le comportement des huîtres étudiées. Afin de retrouver ce processus caché dans le signal valvométrique, nous supposons qu'une densité de probabilité reliée à ce signal est bimodale. Nous comparons donc plusieurs estimateurs qui prennent en compte ce type d'hypothèse, dont des estimateurs à noyau.Dans un second temps, nous comparons plusieurs méthodes de régression, dans le but d'analyser des données transcriptomiques. Pour comprendre quelles variables explicatives influent sur l'expression de gènes, nous avons réalisé des tests multiples grâce au modèle linéaire FAMT. La méthode SIR peut être envisagée pour trouver des relations non-linéaires. Toutefois, elle est principalement employée lorsque la variable à expliquer est univariée. Une version multivariée de cette approche a donc été développée. Le coût d'acquisition des données transcriptomiques pouvant être élevé, la taille n des échantillons correspondants est souvent faible. C'est pourquoi, nous avons également étudié la méthode SIR lorsque n est inférieur au nombre de variables explicatives p.