Thèse soutenue

Découverte et caractérisation des corpus comparables spécialisés

FR  |  
EN
Auteur / Autrice : Lorraine Goeuriot
Direction : Béatrice DailleEmmanuel Morin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2009
Etablissement(s) : Nantes
Partenaire(s) de recherche : Laboratoire : Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes)
autre partenaire : Université de Nantes. Faculté des sciences et des techniques

Mots clés

FR

Résumé

FR  |  
EN

Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l’avantage d’être représentatifs des particularités culturelles et linguistiques de chaque langue. LeWeb peut théoriquement être considéré comme un réservoir à corpus comparables mais la qualité des corpus et des ressources qui en sont extraites réside dans la définition préalable des objectifs du corpus et du soin mis à sa composition (les caractéristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spécialisés en français et japonais dont les documents sont extraits du Web. Nous en proposons une définition et des caractéristiques communes : un domaine de spécialité, un thème et un type de discours (scientifique ou vulgarisé). Notre objectif est de créer un système d’aide à la construction de corpus comparables. Nous présentons d’abord la reconnaissance automatique des caractéristiques communes du corpus. Le thème peut être détecté grâce aux mots-clés utilisés lors de la recherche. Pour le type de discours nous utilisons les méthodes d’apprentissage automatique. Une analyse stylistique sur un corpus d’apprentissage nous permet de créer une typologie bilingue composée de trois niveaux d’analyse : structurel, modal et lexical. Nous l’utilisons ensuite afin d’apprendre un modèle de classification avec les systèmes SVMlight et C4. 5. Ces modèles sont ensuite évalués sur un corpus d’évaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intégrons ensuite le classifieur au sein d’une chaîne logicielle d’aide à la construction de corpus comparables implémentée sur la plateforme UIMA