Thèse soutenue

Bases de connaissances et réalisation de surface

FR  |  
EN
Auteur / Autrice : Bikash Gyawali
Direction : Claire Gardent
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 20/01/2016
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Patrick Saint-Dizier
Examinateurs / Examinatrices : Christophe Cerisara, Guy Perrier
Rapporteurs / Rapporteuses : Albert Gatt, Karin Harbusch

Résumé

FR  |  
EN

La Génération Automatique de Langue Naturelle vise à produire des textes dans une langue humaine à partir d'un ensemble de données non-linguistiques. Elle comprend généralement trois sous-tâches principales: (i) sélection et organisation d'un sous-ensemble des données d'entrée; ii) détermination des mots à utiliser pour verbaliser les données d'entrée; et (iii) regroupement de ces mots en un texte en langue naturelle. La dernière sous-tâche est connue comme la tâche de Réalisation de Surface (RS). Dans ma thèse, j'étudie la tâche de RS quand les données d'entrée sont extraites de Bases de Connaissances (BC). Je présente deux nouvelles approches pour la réalisation de surface à partir de bases de connaissances: une approche supervisée et une approche faiblement supervisée. Dans l'approche supervisée, je présente une méthode basée sur des corpus pour induire une grammaire à partir d'un corpus parallèle de textes et de données. Je montre que la grammaire induite est compacte et suffisamment générale pour traiter les données de test. Dans l'approche faiblement supervisée, j'explore une méthode pour la réalisation de surface à partir de données extraites d'une BC qui ne requière pas de corpus parallèle. À la place, je construis un corpus de textes liés au domaine et l'utilise pour identifier les lexicalisations possibles des symboles de la BC et leurs modes de verbalisation. J'évalue les phrases générées et analyse les questions relatives à l'apprentissage à partir de corpus non-alignés. Dans chacune de ces approches, les méthodes proposées sont génériques et peuvent être facilement adaptées pour une entrée à partir d'autres ontologies