Description et détection automatique de structures de texte
Auteur / Autrice : | Nicolas Hernandez |
Direction : | Christian Jacquemin, Brigitte Grau |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2004 |
Etablissement(s) : | Paris 11 |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020) |
Autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) | |
Jury : | Président / Présidente : Marie-Paule Péry-Woodley |
Examinateurs / Examinatrices : Patrice Enjalbert, Guy Lapalme, Marc Dymetman | |
Rapporteur / Rapporteuse : Patrice Enjalbert, Guy Lapalme |
Résumé
Les systèmes de recherche d'information ne sont pas adaptés pour une navigation intra-documentaire (résumé dynamique). Or celle-ci est souvent nécessaire pour évaluer la pertinence d'un document. Notre travail se situe dans une perspective de web sémantique. Notre objectif est d'enrichir les documents pour fournir aux systèmes, voire directement à l'utilisateur, des informations de description et d'organisation du contenu des documents. Les informations de nature descriptive concernent d'une part l'identification des expressions thématiques du discours, et d'autre part l'identification du type d'information sémantique ou rhétorique contenu dans une phrase donnée (par exemple la présentation du but de l'auteur, l'énonciation d'une définition, l'exposition d'un résultat, etc. ). L'identification des thèmes implémente deux approches distinctes l'une fondée sur la résolution d'anaphores, la seconde sur la construction de chaînes lexicales. En ce qui concerne l'identification des types d'information des phrases, nous proposons une méthode d'acquisition automatique de marques méta-discursives. L'objectif de détection de l'organisation du discours est envisagé selon deux approches. La première consiste à une analyse globale descendante du texte, en combinant une segmentation par cohésion lexicale, et un repérage de marques linguistiques de type introducteur de cadres (e. G. ''En ce qui concerne X, En Corée, D'abord etc. ''). La seconde approche vise une détection plus fine de l'organisation du discours en identifiant les relations de dépendance informationnelle entre les phrases (subordination et coordination).