Description et détection automatique de structures de texte

par Nicolas Hernandez

Thèse de doctorat en Informatique

Sous la direction de Christian Jacquemin et de Brigitte Grau.

Le président du jury était Marie-Paule Péry-Woodley.

Le jury était composé de Patrice Enjalbert, Guy Lapalme, Marc Dymetman.

Les rapporteurs étaient Patrice Enjalbert, Guy Lapalme.


  • Résumé

    Les systèmes de recherche d'information ne sont pas adaptés pour une navigation intra-documentaire (résumé dynamique). Or celle-ci est souvent nécessaire pour évaluer la pertinence d'un document. Notre travail se situe dans une perspective de web sémantique. Notre objectif est d'enrichir les documents pour fournir aux systèmes, voire directement à l'utilisateur, des informations de description et d'organisation du contenu des documents. Les informations de nature descriptive concernent d'une part l'identification des expressions thématiques du discours, et d'autre part l'identification du type d'information sémantique ou rhétorique contenu dans une phrase donnée (par exemple la présentation du but de l'auteur, l'énonciation d'une définition, l'exposition d'un résultat, etc. ). L'identification des thèmes implémente deux approches distinctes l'une fondée sur la résolution d'anaphores, la seconde sur la construction de chaînes lexicales. En ce qui concerne l'identification des types d'information des phrases, nous proposons une méthode d'acquisition automatique de marques méta-discursives. L'objectif de détection de l'organisation du discours est envisagé selon deux approches. La première consiste à une analyse globale descendante du texte, en combinant une segmentation par cohésion lexicale, et un repérage de marques linguistiques de type introducteur de cadres (e. G. "En ce qui concerne X, En Corée, D'abord etc. "). La seconde approche vise une détection plus fine de l'organisation du discours en identifiant les relations de dépendance informationnelle entre les phrases (subordination et coordination).

  • Titre traduit

    Automatic Description and Detection of Text Structures


  • Résumé

    Information Retrieval Systems are not well adapted for text browsing and visualization (dynamic summarization). But this one is always necessary for the user to evaluate the Information Retrieval (IR) systems are not well adapted for text browsing and visualization (dynamic summarization). But this is always necessary for users to evaluate the relevance of a document. Our work follows a Web Semantic perspective. We aim at annotating documents with abstract information about content description and discourse organization in order to create more abilities for IR systems. Descriptive information concerns both topic identification and semantic and rhetorical classification of text extracts (With information such as "Our aim is. . . ", "This paper deals with. . . "). We implement a system to identify topical linguistic expressions based on a robust anaphora system and lexical chains building. We also propose a method in order to automatically acquire meta-discursive material. We perform the detection of the text structure thanks to two complementary approaches. The first one offers a top-down analysis based on the segmentation provided by lexical cohesion and by linguistic markers such as frame introducers. The second one is concerned by local text organization by the detection of informational relations (coordination and subordination) between subsequent sentences.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xiv-285 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 257-278. Glossaire. Index

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DIBISO. BU Orsay.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2004)329
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.