Analyse informatique des signes typographiques pour la segmentation de textes et l'extraction automatique de citations : réalisation des applications informatiques : SegATex et CitaRE

par Ghassan Mourad

Thèse de doctorat en Informatique

Sous la direction de Jean-Pierre Desclès.

Soutenue en 2001

à Paris 4 .


  • Résumé

    Ce travail s'inscrit dans le cadre d'un projet mené au sein de l'équipe LaLIC (Langage, Logique, Informatique et Cognition). Il est opérationnel d'un point de vue informatique et a pour objectif de définir le besoin en terme de segmentation de texte, et d'interprétation sémantique de marqueurs typographiques, pour le filtrage d'information. Il a abouti à la réalisation de deux applications SegATex et CitaRE. Nous avons défini les valeurs des signes de ponctuation, et nous nous sommes intéressé à l'étude historique de la ponctuation en particulier à l'origine de la forme graphique de la virgule et son éventuelle relation avec une autre particule (le waw) dans la langue arabe. L'application SegATex (Segmentation Automatique de Textes) est destinée en tant que module informatique à préparer (baliser) le texte pour un traitement automatique de langue. Parmi ces traitements, figurent la segmentation de textes en sections, sous-sections, paragraphes, phrases, titres et énumérations. La troisième partie de cette thèse traite de " l'extraction automatique de la citation " qui a abouti à la réalisation du système CitaRE (Citation : Repérage et Extraction). Afin de répondre aux besoins de filtrage et d'extraction de connaissances (la citation), nous avons adopté la méthode d'exploration contextuelle.

  • Titre traduit

    Computer processing of typographical marks for text segmentation and automatic extraction of quotations


  • Résumé

    The present work comes within the scope of a project carried out by the LaLIC research team (Langage, Logique, Informatique et Cognition). From a computer perspective this work is of an operational value and it aims at defining the requirements in terms of text segmentation and semantic interpretation of typographic marks for filtering information. The final outcome of this work are the SegATex and CitaRE applications. We proceeded in defining the value of punctuation marks and followed with a historical study of punctuation. We took special interest in the origins of the graphical form of the comma and its eventual relation with the waw, a particle in Arabic language. The SegATex application (Automatic Segmentation of Texts), as a computer module, is intended to prepare (to tag) a text for an automatic language processing which includes text segmentation in sections, sub sections, paragraphs, sentences, titles and enumeration. In the third part of the thesis we treat the "automatic extraction of quotations". The outcome of this part is the CitaRE system (Citation : Repérage et Extraction). We have followed the method of contextual exploration in order to comply with the requirements for filtering and extracting knowledge (the quotation).

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 2 vol. (592 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 155 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Paris-Sorbonne Paris 4. Service commun de la documentation. Bibliothèque Serpente.
  • Consultable sur place dans l'établissement demandeur
  • Cote : BUT 5102 (1-2)

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Bibliothèque interuniversitaire de la Sorbonne (Paris).
  • Non disponible pour le PEB
  • Cote : MC 5639
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.