Variation sémantique en corpus spécialisé

par Thierry Hamon

Thèse de doctorat en Informatique

Sous la direction de Christophe Fouqueré et de Adeline Nazarenko.

Soutenue en 2000

à Paris 13 .


  • Résumé

    Résumé: De nombreuses applications dans les domaines de spécialité exploitent des terminologies. Constituer ces ressources nécessite d'identifier les termes du domaine, et de les structurer en les mettant en relation. La synonymie est précieuse pour le terminologue qui doit isoler le terme vedette de ses variantes sémantiques. Nous nous sommes intéresse a l'acquisition de cette relation sur des corpus spécialisés. Dans notre outil d'aide à la structuration de terminologie (Syno Term), des règles exploitent des informations sémantiques extraites de ressources de nature différente pour inférer des relations entre termes complexes. Celles-ci sont en suite validées par un terminologue. L'implémentation de ces règles soulevant des problèmes d'optimisation, nous proposons une représentation des termes dans un graphe, Des algorithmes efficaces permettent d'obtenir des temps de calcul adaptes aux contraintes de la structuration d’une terminologie. L'exploitation de ressources lexicales dans des conditions réelles nous a permis de caractériser l'apport des ressources générales et l'intérêt de les combiner à des données très spécialisées. Nous proposons une présentation structures des résultats pour guider le travail de validation du terminologue et des critères évaluant de multiples paramètres, les mesures de précision et de rappel reflétant imparfaitement l'avis des terminologues.

  • Titre traduit

    Semantic variation in specialized corpora : acquisition of synonymy relations from lexical resources


  • Résumé

    Abstract: Terminologies are required by many applications in technical domains. Building these resources is a two-step process which identifies terms used in the do¬main and structures them by adding relations. Synonymy is useful for the terminologist to isolate a term from its semantic variants. We aim at acquiring the relation on specialized corpora in a terminology structuration aid tool: SynoTerm. Rules infer relations between complex terms by using semantic informations extracted from various types of resource. A terminologist validates resulting relations. Opti¬mization problems and implementation lead us to propose a term representation in a graph; Powerful algorithms reduced complexity in time, getting processing time adapted to terminology structuration constraints and multi-resources use. Accor¬ding to the real-condition use of lexical resources, we characterize the contribution of genera] resources and the usefulness of their combination with very specialized data. We propose to structure results to lead the terminologist in the validation task. As precision and recall reflect badly the terminologist's point of view, we propose critera to evaluate several parameter.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (198 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.175-187. Index

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire.
  • PEB soumis à condition
  • Cote : TH 2000 017
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.