k-mer based analysis for cancer transcriptomics at nucleotide resolution | Theses.fr

Haoliang Xue

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Analyse de k-mers pour la transcriptomique du cancer à la résolution du nucléotide

FR |

EN

Auteur / Autrice :	Haoliang Xue
Direction :	Daniel Gautheret
Type :	Thèse de doctorat
Discipline(s) :	Sciences de la vie et de la santé
Date :	Soutenance le 13/12/2021
Etablissement(s) :	université Paris-Saclay
Ecole(s) doctorale(s) :	École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Institut de biologie intégrative de la cellule (Gif-Sur-Yvette, Essonne ; 2015-....)
	référent : Faculté des sciences d'Orsay
	graduate school : Université Paris-Saclay. Graduate School Life Sciences and Health (2020-....)
Jury :	Président / Présidente : Fariza Tahi
	Examinateurs / Examinatrices : Tatiana Popova, Denis Puthier, Rayan Chikhi, Alain Denise
	Rapporteurs / Rapporteuses : Tatiana Popova, Denis Puthier

Mots clés

FR |

EN

Mots clés contrôlés

Transcriptome

ARN messagers

Séquençage à haut débit

Apprentissage automatique

Mots clés libres

Apprentissage automatique

ARN

Médecine de précision

Classifieurs

NGS

Transcriptomique

Résumé

FR |

EN

Le transcriptome intègre des variations d'ARN produites par deux processus principaux : les altérations génétiques (mutations, fusions de gènes, etc.) et les modifications post-transcriptionnelles (épissages alternatifs, etc.). C'est un objet de recherche idéal pour étudier l’association génotype-phénotype. Les techniques de next-generation sequencing (NGS, séquençage de nouvelle génération) permettent une mesure du transcriptome à la résolution du nucléotide, de manière à la fois rapide et économique. Les analyses conventionnelles du transcriptome basée sur la quantification des gènes ou des transcrits n'utilisent pas la pleine précision de ces données NGS, mais héritent d’une perspective plus ancienne issue des puces à ADN (microarrays) et qui considère le gène ou le transcrit comme la caractéristique élémentaire pour l’analyse statistique ou pour l'apprentissage automatique. Dans cette thèse, nous discutons et développons une nouvelle perspective d'analyse du transcriptome, basée sur les signaux de k-mers (sous-chaînes de caractères de longueur fixe comme k, avec typiquement k = 31). Ainsi, au lieu de quantifier des gènes ou des transcrits prédéfinis, nous comptons des k-mers courts et arbitraires, et les prenons directement comme caractéristiques élémentaires. Cela permet de représenter des événements au cours de l'expression du gène à la résolution nucléotide, et d’entrer au-dessous du niveau des transcrits pour examiner les événements locaux. En outre, cette approche évite aussi que les signaux informatifs s'annulent à l’étape de la quantification de gène ou de transcrit. La thèse comporte différents aspects : (i) Le logiciel KaMRaT (chapitre 3), développé au cours de la thèse, prend en charge diverses méthodes pour réduire la dimensionnalité de k-mers, et pour améliorer leur spécificité. Il intègre : un module pour classer-sélectionner des k-mers en évaluant l’association entre les comptages des k-mers et le phénotype des échantillons; un module d'extension pour fusionner des k-mers chevauchants ; un module de filtrage tenant compte de leurs niveaux d'expression ; un module de masquage pour extraire les k-mers avec une liste de séquences donnée. Les résultats montrent que KaMRaT est un logiciel à la fois économe en ressource de calcul, flexible et facile à utiliser (ii) La comparaison entre les classifieurs utilisant k-mers ou gènes (chapitre 4) montre qu’un classifieur basé sur des caractéristiques de type k-mer fonctionne aussi bien que celui basé sur les caractéristiques de type gène, dans le problème du pronostic du cancer de la prostate, le premier offrant de plus de la possibilité de découvrir de nouveaux événements non-annotés. (iii) L’analyse de la réplicabilité des signaux k-mers informatifs dans une recherche inter-cohorte (chapitre 5) montre que les signaux k-mers sont réplicables entre jeux de données comparables mais indépendantes, et la recherche inter-cohorte de k-mers permet de trouver des signaux informatifs stables. (iv) Le logiciel Kmerator (chapitre 6) permet l'utilisation de signaux de type k-mer, donc sans référence, comme un proxy pour la mesure d’expression génique. (v) Enfin, l'application des logiciels REINDEER et Kmerator (chapitre 7) permet d’utiliser de grandes collections d’échantillons d'ARN-seq pour y rechercher des séquences d’ARN arbitraires.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Analyse de k-mers pour la transcriptomique du cancer à la résolution du nucléotide

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Analyse de k-mers pour la transcriptomique du cancer à la résolution du nucléotide

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses