Thèse soutenue

Modélisation stochastique de grands jeux de données : applications en écologie et en génétique

FR  |  
EN
Auteur / Autrice : Raphaël Coudret
Direction : Gilles DurrieuJérôme Saracco
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 16/09/2013
Etablissement(s) : Bordeaux 1
Ecole(s) doctorale(s) : École doctorale Mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Institut de mathématiques de Bordeaux - Institut de Mathématiques de Bordeaux / IMB - CQFD - EPOC
Jury : Président / Présidente : Jean Charles Massabuau
Examinateurs / Examinatrices : Pierrick Legrand
Rapporteurs / Rapporteuses : Gérard Biau, Stéphane Robin

Résumé

FR  |  
EN

Deux parties principales composent cette thèse. La première d'entre elles est consacrée à la valvométrie, c'est-à-dire ici l'étude de la distance entre les deux parties de la coquille d'une huître au cours du temps. La valvométrie est utilisée afin de déterminer si de tels animaux sont en bonne santé, pour éventuellement tirer des conclusions sur la qualité de leur environnement. Nous considérons qu'un processus de renouvellement à quatre états sous-tend le comportement des huîtres étudiées. Afin de retrouver ce processus caché dans le signal valvométrique, nous supposons qu'une densité de probabilité reliée à ce signal est bimodale. Nous comparons donc plusieurs estimateurs qui prennent en compte ce type d'hypothèse, dont des estimateurs à noyau.Dans un second temps, nous comparons plusieurs méthodes de régression, dans le but d'analyser des données transcriptomiques. Pour comprendre quelles variables explicatives influent sur l'expression de gènes, nous avons réalisé des tests multiples grâce au modèle linéaire FAMT. La méthode SIR peut être envisagée pour trouver des relations non-linéaires. Toutefois, elle est principalement employée lorsque la variable à expliquer est univariée. Une version multivariée de cette approche a donc été développée. Le coût d'acquisition des données transcriptomiques pouvant être élevé, la taille n des échantillons correspondants est souvent faible. C'est pourquoi, nous avons également étudié la méthode SIR lorsque n est inférieur au nombre de variables explicatives p.