Thèse soutenue

Générer et répondre à des questions à partir de textes et de graphes de connaissances

FR  |  
EN
Auteur / Autrice : Kelvin Han
Direction : Claire GardentThiago Castro Ferreira
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 02/12/2024
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Anne Vilnat
Examinateurs / Examinatrices : Claire Gardent, Thiago Castro Ferreira, Frédéric Béchet, Sophie Rosset, Catherine Faron
Rapporteurs / Rapporteuses : Anne Vilnat, Frédéric Béchet

Résumé

FR  |  
EN

La génération de questions (QG) est une tâche qui consiste à produire automatiquement une question à partir d'une source d'information en entrée contenant la réponse. Il s'agit d'une sous-tâche de la génération automatique de textes (NLG), elle est également liée à la tâche de questions-réponses (QA), qui est l'opposé de la QG. L'objectif de la QG est de générer une expression linguistique pour rechercher l'information, l'objectif du QA est d'identifier automatiquement la réponse à une question à partir d'une source d'information en entrée. Les deux tâches ont des applications dans des domaines tels que la recherche d'information, les dialogues et les conversations, et aussi dans l'éducation. Lorsque les tâches de QG et de QA sont tout deux utilisées pour évaluation de textes basées sur la QA, elles sont aussi utilisées pour la vérification des faits (notamment les sorties de la NLG qui peuvent être sur le résumé ou la génération de texte à partir des données). La plupart des recherches sur ces deux tâches se concentrent soit sur l'une soit sur l'autre, et généralement dans une seule et unique modalité. Dans le domaine de la QG, les approches antérieures reposaient sur des architectures nécessitant un prétraitement intensif. Les questions ainsi générées ne couvraient ni l'entièreté des informations en entrée, ni la diversité des nuances possibles. Dans le domaine des QA, bien que des approches aient été proposées pour répondre aux question à partir d'informations non structurées (par exemple, un document textuel brute), mais aussi structurées (par exemple, des graphes de connaissances (KG) ou des tableaux), ces méthodes ne sont pas transférables pour une autre modalité. Dans cette thèse, nous nous concentrons d'abord sur la QG, afin d'identifier les moyens de générer des questions à partir d'informations structurées et également non structurées, et de le faire de manière contrôlée pour augmenter la diversité et la couverture des questions générées. Ensuite, nous étudierons également la conduite de la QG et des QA par un modèle capable de générer des questions simples et complexes de manière contrôlée à partir d'une modalité, puis répondre sur une autre modalité. Enfin, nous examinerons la possibilité de faire la même tâche pour les langues avec peu de ressources autres que l'anglais, ce qui pourrait faciliter l'évaluation basée sur les QA pour ces langues.