Moteur de recherche pour données de séquençage génomique
Auteur / Autrice : | Lucas Robidou |
Direction : | Pierre Peterlongo |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 21/09/2023 |
Etablissement(s) : | Université de Rennes (2023-....) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes ; 2022-....) |
Partenaire(s) de recherche : | Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - GenScale |
Jury : | Président / Présidente : Jacques Nicolas |
Examinateurs / Examinatrices : Loïs Maignien, Giulio Ermanno Pibiri | |
Rapporteurs / Rapporteuses : Nadia Pisanti, Paola Bonizzoni |
Mots clés
Mots clés contrôlés
Résumé
Les technologies de séquençage à haut débit génèrent des quantités massives de jeux de données de séquences biologiques à mesure que les coûts diminuent. L'un des défis actuels pour exploiter ces données consiste à développer des moteurs de recherche pour ces jeux d'une taille de l'ordre du pétaoctet. La plupart des méthodes existantes reposent sur l'indexation des séquences via leurs mots de longueur k, appelés kmers. Dans de nombreux domaines de la bioinformatique, il est nécessaire de retrouver l'abondance d'un kmer dans un ensemble de données. Des structures de données, appelées AMQ, sont largement utilisées pour représenter ces grands ensembles de kmers. D'autres structures de données simililaires, les cAMQ, représentent des multiensembles, de façon à pouvoir retrouver l'abondance d'un kmer dans un jeu. Cependant, par nature, ces AMQs renvoient des faux positifs et, dans le cas d'un multiensemble, ont tendence à surestimer l'abondance des kmers. Dans ce manuscrit, nous présentons deux contributions, findere et fimpera, qui permettent d'améliorer les performances des (c)AMQs. Appliqué au filtre de Bloom, qui est largement utilisé en bioinformatique, findere réduit son taux de faux positifs de deux ordres de grandeur tout en accélérant ses requêtes. fimpera réduit le taux de faux positifs d'un filtre de Bloom avec comptage tout en améliorant la précision des abondances renvoyées.