Thèse soutenue

Génération automatique de textes par satisfaction de contraintes
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Pierre Hankach
Direction : Laurence Danlos
Type : Thèse de doctorat
Discipline(s) : Linguistique théorique, descriptive et automatique
Date : Soutenance en 2009
Etablissement(s) : Paris 7

Résumé

FR  |  
EN

Nous nous intéressons dans cette thèse à la construction d'un système de génération automatique - un logiciel informatique capable de transformer une représentation formelle de l'information en un texte en langage naturel. Dans notre approche, nous définissons la génération comme un problème de satisfaction de contraintes (CSP). Le système résultant garantit un traitement intégré des opérations de la génération car les différentes dépendances sont prises en compte et aucune priorité n'est donnée à un type d'opération par rapport aux autres. Pour définir le problème de satisfaction de contraintes, nous représentons les opérations de construction du texte par des variables de décision. Les opérations individuelles qui réalisent un même type d'expressions minimales dans le texte sont groupées ensemble et constituent une tâche de la génération. Nous classons les variables de décision selon les types d'opérations qu'elles représentent (e. G. Variables de sélection du contenu, variables de structuration du document. . . ). Les règles linguistiques régissant les opérations sont représentées par des contraintes sur les variables. Une contrainte peut être définie sur des variables d'un ou plusieurs type(s), marquant la dépendance entre les opérations correspondantes. La production d'un texte consiste en la résolution du système global des contraintes, c'est-à-dire trouver une affectation complète des variables qui ne viole pas les contraintes. Dans le cadre de la définition de la grammaire de contraintes, nous formulons notamment la partie qui régit les opérations de structuration du document. Nous modélispns par des contraintes la structure rhétorique développée par la SORT afin d'aboutir à des textes cohérents à la sortie du générateur. Auparavant, afin d'augmenter les capacités de génération de notre système, nous étendons cette structure rhétorique pour couvrir les textes non canoniques. En plus de la définition de ces contraintes pour la cohérence, nous formulons un ensemble de contraintes qui permettent de façonner la macrostructure en fonction des buts communicatifs afin de favoriser leur réalisation. Enfin, nous proposons une solution au problème de la complexité de calcul de la génération de textes de grande taille. Cette solution repose sur la génération de ces textes par paquet de propositions. Le problème de génération du texte global est ainsi défini comme plusieurs problèmes de génération de parties du texte. Ces parties sont de taille limitée et la complexité associée à leur génération reste raisonnable. Le partitionnement proposé est motivé par des considérations linguistiques.