Thèse soutenue

Analyses linguistiques et modélisations des connaissances en vue d’un traitement automatique des e-mails entrants : vers un système de veille dans le domaine du tourisme aérien

FR  |  
EN
Auteur / Autrice : Marion Barbé
Direction : Henri Madec
Type : Thèse de doctorat
Discipline(s) : Sciences du langage. Traitement automatique des langues
Date : Soutenance en 2007
Etablissement(s) : Besançon
Partenaire(s) de recherche : autre partenaire : Université de Franche-Comté. UFR des Sciences du langage, de l'homme et de la société

Résumé

FR  |  
EN

Le présent travail étudie une situation de communication nouvelle : la communication via l’e-mail. Notre étude s’est centrée plus précisément sur les mails envoyés par des clients vers l’entreprise et ce dans le domaine du tourisme aérien (notion de e-crm). Pour mener nos analyses linguistiques, nous avons constitué un important corpus de messages récoltés sur des forums Internet et traitant de voyages. Notre but est d’automatiser la gestion, la catégorisation et la thématisation des mails. Nous avons donc rassemblé un ensemble de traits lexicaux, syntaxiques, morpho-syntaxiques et sémantiques spécifiques à la notion de déplacement, de toponymie et propres au sous-langage du tourisme aérien. Nous montrons également comment une analyse linguistique des informations spatiales et indissociable d’un traitement des éléments temporels de la phrase. En outre, nous choisissons d’analyser les informations de type émotionnel contenues dans les messages. Dans la dernière partie de notre travail, nous replaçons notre étude dans un système de veille appliqué aux mails. Nous montrons comment les techniques à base de statistiques sont limitées dès qu’il s’agit de traiter des énoncés linguistiquement complexes tels que les nôtres. Notre approche est hybride : à base de mots clés, dictionnaires de synonymes, scripts sur le modèle de SCHANK et ABELSON, mais surtout à base de modélisation des connaissances. Finalement, nous proposons un traitement de haute qualité des connaissances et donnons quelques exemples d’informatisation de notre système grâce à XML, PROLOG et PERL