Leveraging linguistic and semantic information for relation extraction from domain-specific texts

Anfu Tang

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Exploitation de l'information linguistique et sémantique pour l'extraction de relations à partir de textes en domaine spécialisé

FR |

EN

Auteur / Autrice :	Anfu Tang
Direction :	Claire Nédellec, Pierre Zweigenbaum, Louise Deléger
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 06/12/2023
Etablissement(s) :	université Paris-Saclay
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Mathématiques et Informatique Appliquées du Génome à l'Environnement (Jouy-en-Josas, Yvelines)
	Référent : Faculté des sciences d'Orsay
	graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….)
Jury :	Président / Présidente : Vincent Guigue
	Examinateurs / Examinatrices : Éric Gaussier, Xavier Tannier, Laure Soulier
	Rapporteurs / Rapporteuses : Éric Gaussier, Xavier Tannier

Mots clés

FR |

EN

Mots clés contrôlés

Ontologies (informatique)

Syntaxe

Apprentissage profond

Recherche de l'information

Traitement automatique du langage naturel

Mots clés libres

Traitement automatique des langues

Extraction de relations

Modèle de langue

Analyse syntaxique

Apprentissage profond

Base de connaissances

Résumé

FR |

EN

Cette thèse a pour objet l'extraction d'informations relationnelles à partir de documents scientifiques biomédicaux, c'est-à-dire la transformation de texte non structuré en information structurée exploitable par une machine. En tant que tâche dans le domaine du traitement automatique des langues (TAL), l'extraction de relations sémantiques spécialisées entre entités textuelles rend explicite et formalise les structures sous-jacentes. Les méthodes actuelles à l'état de l'art s'appuient sur de l'apprentissage supervisé, plus spécifiquement l'ajustement de modèles de langue pré-entraînés comme BERT. L'apprentissage supervisé a besoin de beaucoup d'exemples d'apprentissages qui sont coûteux à produire, d'autant plus dans les domaines spécialisés comme le domaine biomédical. Les variants de BERT, comme par exemple PubMedBERT, ont obtenu du succès sur les tâches de TAL dans des textes biomédicaux. Nous faisons l'hypothèse que l'injection d'informations externes telles que l'information syntaxique ou la connaissance factuelle dans ces variants de BERT peut pallier le nombre réduit de données d'entraînement annotées. Dans ce but, cette thèse concevra plusieurs architectures neuronales basés sur PubMedBERT qui exploitent des informations linguistiques obtenues par analyse syntaxique ou des connaissances du domaine issues de bases de connaissance.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Exploitation de l'information linguistique et sémantique pour l'extraction de relations à partir de textes en domaine spécialisé

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Exploitation de l'information linguistique et sémantique pour l'extraction de relations à partir de textes en domaine spécialisé

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses