Thèse soutenue

Contribution à la lecture automatique à l’aide de réseaux neuronaux profonds

FR  |  
EN
Auteur / Autrice : Quentin Grail
Direction : Éric Gaussier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/11/2021
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble (2007-....)
Equipe de recherche : Algorithms, principles and theories for collaborative knowledge acquisition and learning (Grenoble)
Jury : Président / Présidente : François Portet
Examinateurs / Examinatrices : Éric Gaussier, Anne Vilnat
Rapporteur / Rapporteuse : Frédéric Béchet, Alexandre Allauzen

Résumé

FR  |  
EN

La compréhension automatique du langage naturel est un défi important de l'intelligence artificielle.Dans cette dissertation, nous décrivons l'ensemble de nos contributions apportées à ce domaine.Nous présentons plusieurs directions que nous pensons cruciales à la construction de meilleurs systèmes de traitement automatique du langage naturel.La première partie de cette dissertation couvre certains concepts essentiels notamment en proposant un historique rapide de la représentation vectorielle de mots ainsi que des tâches de lecture et de résumé automatique de texte.Cette partie décrit certains des principaux objectifs qui ont guidés la recherche durant ces dernières années jusqu'à la récente révolution de l'apprentissage profond appliquée au traitement du langage naturel.Le premier thème développé dans cette thèse concerne la compréhension automatique de texte au travers de la tâche de question-réponse.Nos contributions dans ce domaine sont liées à trois aspects principaux : les données d'évaluation, les algorithmes d'apprentissage, la construction de nouveaux modèles.Dans ce premier thème, nous proposons un jeu de données de question-réponse permettant d'évaluer les compétences de raisonnement relationnel du système de lecture.Ensuite, nous proposons un protocole d'apprentissage adversarial ayant pour but de générer automatiquement des exemples bruités afin d'améliorer les performances du modèle de lecture.Finalement, nous décrivons nos travaux proposés dans le cadre de question-réponse multi-hop. La tâche de question-réponse est assez générale et de nouveaux types de questions ont émergés ces dernières années dans le but d'évaluer différentes compétences des modèles de lecture.Les questions multi-hop font partie de ces nouvelles directions et nécessite au lecteur de collecter de l'information dans plusieurs parties de documents afin de répondre correctement à une question.Nous pensons que cette tâche est un pas de plus vers la construction de meilleurs modèles de compréhension du langage et proposons notre contribution au travers d'un modèle de lecture efficace et interprétable.L'explosion de l'apprentissage profond associé à l'augmentation de la puissance de calcul des machines modernes à conduit à des progrès remarquables dans le domaine du traitement du langage naturel.Cependant, les récentes architectures développées ont tendance à être évaluées sur des tâches nécessitant de lire uniquement des textes de taille relativement modérée.Le deuxième thème couvert dans cette thèse concerne l'apprentissage de représentations de textes longs en utilisant différentes architectures d'apprentissage profond état de l'art.Nous décrivons notre proposition ayant pour but d'améliorer les récentes approches proposées, en les adaptant pour des tâches nécessitant le traitement de documents longs.Nous avons évalué cette proposition sur une tâche de résumé extractif de textes scientifiques et présentons des résultats encourageants ne nécessitant qu'une adaptation minimale des architectures existantes.