Extraction d'informations relationnelles à partir de textes en domaine spécialisé - adaptabilité et passage à l'échelle

par Anfu Tang

Projet de thèse en Informatique

Sous la direction de Claire Nédellec.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec MaIAGE - Mathématiques et Informatique Appliquées du Génome à l'Environnement (laboratoire) , Bibliome : acquisition et formalisation de connaissances à partir d'un texte (equipe de recherche) et de Faculté des sciences d'Orsay (référent) depuis le 01-10-2020 .


  • Résumé

    Cette thèse a pour objet l'extraction d'informations relationnelles à partir de documents scientifiques en sciences de la vie, c'est-à-dire la transformation de texte non structuré en information structurée exploitable par une machine. L'extraction de relations sémantiques spécialisées entre entités détectées dans le texte rend explicite et formalise les structures sous-jacentes. Les méthodes actuelles à l'état de l'art s'appuient sur de l'apprentissage supervisé. L'apprentissage supervisé, et particulièrement les méthodes récentes d'apprentissage profond, ont besoin de beaucoup d'exemples d'apprentissages qui sont coûteux à produire, d'autant plus dans les domaines spécialisés comme les sciences de la vie. Nous faisons l'hypothèse que combiner l'information et la connaissance disponibles dans les domaines spécialisés avec les derniers modèles d'apprentissage profond de plongements lexicaux (word embeddings) peut pallier l'absence ou le nombre réduit de données d'entraînement annotées. Dans ce but, cette thèse concevra une représentation riche des textes qui s'appuie à la fois sur des informations linguistiques obtenues par analyse syntaxique et sur des connaissances du domaine issues de graphes de connaissance tels que des ontologies. L'utilisation d'ontologies dans le processus d'extraction d'information facilitera en outre l'intégration de l'information avec d'autres données, telles que des données expérimentales ou analytiques.

  • Titre traduit

    Extraction of relational information from text in specific domain - adaptability and scalability


  • Résumé

    This thesis addresses the extraction of relational information from scientific documents in Life Sciences, i.e. transforming unstructured text into machine-readable structured information. The extraction of specialized semantic relationships between entities detected in text makes explicit and formalizes the underlying structures. Current state-of-the art methods rely on supervised machine learning. Supervised learning, and even more so recent deep learning methods, require many training examples that are costly to produce, all the more in specific domains such as Life Sciences. We hypothesize that combining information and knowledge available in specific domains with the latest deep learning word embedding models can offset the absence or limited amount of annotated training data. For this purpose, the thesis will design a rich representation of texts that draws both from linguistic information obtained from syntactic parsing and domain knowledge obtained from knowledge graphs such as ontologies. Integrating ontologies in the information extraction process will additionally facilitate information integration with other data, such as experimental or analytical data.