Automatic Discovery of Hidden Associations Using Vector Similarity : Application to Biological Annotation Prediction | Theses.fr

Seyed Ziaeddin Alborzi

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Découverte automatique des associations cachées en utilisant la similarité vectorielle : application à la prédiction de l'annotation biologique

FR |

EN

Auteur / Autrice :	Seyed Ziaeddin Alborzi
Direction :	David Ritchie, Marie-Dominique Devignes
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 23/02/2018
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine
Partenaire(s) de recherche :	Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury :	Président / Présidente : Anne Boyer
	Examinateurs / Examinatrices : Wim Vranken, Graham Kemp, Malika Smaïl-Tabbone, Alessandra Carbone, Olivier Poch
	Rapporteurs / Rapporteuses : Wim Vranken, Graham Kemp

Mots clés

FR |

EN

Mots clés contrôlés

Analyse des données symboliques

Associations moléculaires

Bioinformatique

Mots clés libres

Graphes tripartites

Similarité vectorielle

Règles d'associations

Bases de données biologiques

Domaines protéiques

Annotation fonctionnelle des protéines

Interactions domaine-domaine

Résumé

FR |

EN

Cette thèse présente: 1) le développement d'une nouvelle approche pour trouver des associations directes entre des paires d'éléments liés indirectement à travers diverses caractéristiques communes, 2) l'utilisation de cette approche pour associer directement des fonctions biologiques aux domaines protéiques (ECDomainMiner et GODomainMiner) et pour découvrir des interactions domaine-domaine, et enfin 3) l'extension de cette approche pour annoter de manière complète à partir des domaines les structures et les séquences des protéines. Au total, 20 728 et 20 318 associations EC-Pfam et GO-Pfam non redondantes ont été découvertes, avec des F-mesures de plus de 0,95 par rapport à un ensemble de référence Gold Standard extrait d'une source d'associations connues (InterPro). Par rapport à environ 1500 associations déterminées manuellement dans InterPro, ECDomainMiner et GODomainMiner produisent une augmentation de 13 fois le nombre d'associations EC-Pfam et GO-Pfam disponibles. Ces associations domaine-fonction sont ensuite utilisées pour annoter des milliers de structures de protéines et des millions de séquences de protéines pour lesquelles leur composition de domaine est connue mais qui manquent actuellement d'annotations fonctionnelles. En utilisant des associations de domaines ayant acquis des annotations fonctionnelles inférées, et en tenant compte des informations de taxonomie, des milliers de règles d'annotation ont été générées automatiquement. Ensuite, ces règles ont été utilisées pour annoter des séquences de protéines dans la base de données TrEMBL

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Découverte automatique des associations cachées en utilisant la similarité vectorielle : application à la prédiction de l'annotation biologique

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Découverte automatique des associations cachées en utilisant la similarité vectorielle : application à la prédiction de l'annotation biologique

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses