Thèse soutenue

Indexation et comparaison d'une grande quantité de données génomiques à l'aide d'algorithmes pour le traitement d'images

FR  |  
EN
Auteur / Autrice : Jocelyn De Goër de Herve
Direction : Engelbert Mephu-NguifoMyoung-Ah Kang
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/04/2019
Etablissement(s) : Université Clermont Auvergne‎ (2017-2020)
Ecole(s) doctorale(s) : École doctorale des sciences pour l'ingénieur (Clermont-Ferrand)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes
Jury : Président / Présidente : Mohand Saïd Hacid
Examinateurs / Examinatrices : Laurent Bréhélin
Rapporteurs / Rapporteuses : Karine Bennis-Zeitouni, Vladimir Makarenkov

Résumé

FR  |  
EN

L’accroissement constant des capacites de sequencage de l’ADN entraine l’emergence denouveaux questionnements biologiques. Le stockage et le traitement de cette massed’informations restent des enjeux majeurs pour les annees a venir. Durant le processusd’analyse des donnees genomiques, la recherche de sequences exactes ou proches, au traversde bases de donnees de genomes de references, est une tache incontournable. Elle estnotamment necessaire dans les phases d’assemblage, d’alignement de sequences et plusgeneralement pour identifier la sequence de reference la plus proche d’une sequencerequete. Ces taches sont notamment essentielles dans le cadre d’etude en Biologie Evolutive,en Phylogenie ou en Metagenomique.Traditionnellement, une grande majorite des techniques servant a realiser ces differentestaches, sont issues de methodes en algorithmique du texte. L’objectif de cette these, estd’evaluer la possibilite d’utiliser des algorithmes issus du domaine de la comparaison desimages numeriques. En effet, les methodes de production des images numeriques ont connuune importante augmentation depuis ces 40 dernieres annees, entrainant des problemes derecherche et de comparaison, qui par certains aspects, peuvent etre consideres comme etantsimilaires aux traitements necessaires a l’analyse des donnees genomiques.Au cours de cette these, nous nous sommes plus particulierement interesses au concept dehachage perceptuel, utilise habituellement pour indexer et comparer des images numeriques,afin de determiner si de telles methodes sont pertinentes pour comparer des sequencesexactes ou approchees au sein de bases de donnees de sequences de references. Ainsi, nousproposons deux contributions. La premiere est une fonction de hachage perceptuel,permettant l’indexation de sequences ADN/ARN. Outre une diminution importante desdonnees indexees par rapport aux sequences fournies en entree, cette fonction de hachage ala particularite de conserver la propriete de comparabilite entre deux cles de hachage. Deuxsequences ADN/ARN proches, auront des cles de hachage egalement proches et ainsicomparables. La seconde contribution, est l’adaptation d’une methode permettant de faireressortir les zones communes entre deux images, a la problematique de la comparaison desequences ADN.Ces travaux se placent dans un contexte d’accroissement des volumes de donneesgenomique, ou l’enjeu est de concevoir des algorithmes permettant d’identifier rapidementles genomes de reference les plus proches d’une sequence requete. Le but etant d’effectuerun pretraitement rapide, permettant de ne conserver que des sequences pertinentes et parla suite d’utiliser des methodes plus classiques en bio-informatique.