Faciliter les interactions dynamiques entre langage naturel et les Bases de connaissances structurées
Auteur / Autrice : | Hady Elsahar |
Direction : | Frédérique Laforest, Christophe Gravier |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 05/07/2019 |
Etablissement(s) : | Lyon |
Ecole(s) doctorale(s) : | École doctorale Sciences Ingénierie Santé (Saint-Etienne) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Hubert Curien (Saint-Etienne ; 1995-....) |
établissement opérateur d'inscription : Université Jean Monnet (Saint-Étienne ; 1969-....) | |
Jury : | Président / Présidente : Pascal Poncelet |
Examinateurs / Examinatrices : Laure Soulier | |
Rapporteur / Rapporteuse : Roberto Navigli, Marie-Francine Moens |
Mots clés
Mots clés contrôlés
Résumé
Le langage naturel a toujours été le moyen le plus simple pour communiquer et documenter l'information sous forme de livres et de messages. Alternativement, et de manière intuitive, l'humanité a découvert la force des statistiques et de l'information structurée, c’est-à-dire organisée dans des structures plus complexes qui permettent une meilleure compréhension visuelle et facilitent les opérations sur les données de même type. La complémentarité de ces deux formes de représentation de l'information a inspiré de nombreuses applications impliquant des interactions entre le langage naturel et l'information structurée telles que l'extraction d'informations (Information Extraction, IE), les systèmes de questions-réponses (Question Answering, QA) ou la génération automatique de texte (Natural Language Generation, NLG) à partir de données structurées.Cependant, les modèles de Traitement Automatique des Langues (TAL) responsables de ces interactions sont souvent conçus de façon statique. À l'ère de l'explosion informationnelle, l'abondance de nouvelles informations publiées chaque jour impose un processus fastidieux d'entretien de ces systèmes et leur adaptation continue. Dans cette thèse, nous identifions trois limitations majeures à la robustesse des systèmes de questions-réponses pour s'adapter aux nouvelles informations : la faible évolutivité des bases de connaissances, la faible couverture des jeux de données d'entraînement et de validation, et les limites de la présentation de l’information. Nous apportons plusieurs contributions pour traiter chacun de ces problèmes.Tout d'abord nous proposons de nouvelles méthodes de découverte de relations (relation discovery) capables d'identifier automatiquement de nouveaux types de relations à partir de corpus de textes, avec une précision et un rappel améliorant l’état de l’art. Ensuite, nous présentons une nouvelle architecture permettant de générer automatiquement des jeux de données d'alignement entre le langage naturel et des bases de connaissances structurées. Notre jeu de données est le plus grand disponible dans la littérature. Nous proposons aussi une nouvelle architecture encodeur-décodeur de réseaux de neurones pour la génération de questions à partir d’une base de connaissances dans une configuration de type ''zero-shot''. Ce modèle, doté d’actions de copie d’étiquettes morpho-syntaxiques, a prouvé sa capacité à générer des questions pour des relations et des types d'entités non rencontrés dans la phase d’apprentissage a donc un grand potentiel pour augmenter les volumes des jeux de données lors de l'entraînement de systèmes de questions-réponses de façon évolutive.Enfin nous proposons une architecture encodeur-décodeur dotée de plusieurs techniques de dé-lexicalisation pour générer des descriptions d'entités à partir de triplets structurés. Notre méthode a prouvé son efficacité pour générer des résumés d'entités dans une configuration multilingue et pour des langues ayant peu de contributeurs, et ce même avec des jeux de données d’apprentissage limités.