Génération de questions à choix multiples thématiques à partir de bases de connaissances - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2019

Automatic generation of thematic multiple choice questions from knowledge bases

Génération de questions à choix multiples thématiques à partir de bases de connaissances

Tanguy Raynaud
  • Fonction : Auteur

Résumé

The use of multiple choice questions to assess knowledge is a reliable and widely used method, even in official contexts. Such a method offers many advantages, including equality of marking between candidates, or, more pragmatically, the possibility of automatic correction.With the emergence of MOOCs (courses delivered in a digital format), the need for automatic evaluation has increased. The scope of this thesis is part of this context, by proposing a solution that enables automatic thematic question generation.The work presented in this thesis uses knowledge bases as data sources to automatically generate thematic multiple-choice questions.The use of knowledge bases in this context thus raises several scientific challenges that constitute the contributions of the presented work:- Knowledge base entities are generally not explicitly correlated to themes. This thesis presents a method based on Wikipedia metadata to identify and sort knowledge base entities according to predefined themes.- In order to be intelligible, a question must be grammatically correct, and must include enough information to remove any ambiguity about the correct answer. To that end, we have introduced question templates to identify entities within knowledge bases and generate natural language statements.- In a multiple choice questions, distractors (wrong answers) are no less important than the statement. Wrong distractors are easilly discarded and affect the whole question difficulty. In a last contribution, we present the method used to select distractors that are not only relevant to the question's statement, but also to its context.
L'évaluation de connaissances à travers un support de questions à choix multiples est une méthode fiable et largement utilisée, y compris dans des contextes officiels, comme pour l'examen du code de la route. Cette méthode d'évaluation offre en effet de nombreux avantages, comme une égalité de notation entre les candidats, ou de façon plus pragmatique, une possibilité de correction automatique.L'émergence des MOOCs, des cours dispensés sous un format numérique, a contribué à accroître ce besoin d'évaluation automatique. Les travaux de cette thèse s'inscrivent ainsi dans ce contexte, en proposant une solution permettant de générer des questions thématiques, c'est à dire des questions centrées autour d'un thème prédéfini.Les travaux présentés dans cette thèse utilisent des bases de connaissances comme sources de données pour générer automatiquement des questions à choix multiples thématiques. L'utilisation de bases de connaissances dans ce contexte pose ainsi un certain nombre de défis scientifiques qui constituent les contributions des travaux présentés :- Les entités des bases de connaissances ne sont généralement pas explicitement corrélés à des thèmes. Cette thèse présente ainsi une méthode basée sur les méta-données de Wikipedia permettant d'identifier et de trier les entités de bases de connaissances en fonction de thèmes prédéfinis.- Pour qu'une question soit intelligible, son énoncé doit être grammaticalement correct, et contenir suffisamment d'informations pour lever toute ambiguïté quand-à la bonne réponse. Dans cette optique, nous avons introduit des modèles de questions permettant d'identifier des entités au sein de bases de connaissances, et de générer des énoncés en langage naturel.- Dans une questions à choix multiples, les distracteurs (mauvaises réponses) sont aussi important que l'énoncé, de mauvais distracteurs rendant la question trop facile. Dans une dernière contribution, nous présentons la méthode utilisée pour sélectionner des distracteurs qui soient non seulement pertinents vis-à-vis de l'énoncé de la question, mais aussi de son contexte.
Fichier principal
Vignette du fichier
These-Tanguy-Raynaud-2019.pdf (4.01 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02901501 , version 1 (17-07-2020)

Identifiants

  • HAL Id : tel-02901501 , version 1

Citer

Tanguy Raynaud. Génération de questions à choix multiples thématiques à partir de bases de connaissances. Informatique et langage [cs.CL]. Université de Lyon, 2019. Français. ⟨NNT : 2019LYSES066⟩. ⟨tel-02901501⟩

Collections

STAR PARISTECH
143 Consultations
977 Téléchargements

Partager

Gmail Facebook X LinkedIn More