Thèse soutenue

Apports d'une approche a base de corpus aux techniques de traitement automatique du langage naturel

FR  |  
EN
Auteur / Autrice : Martin Rajman
Direction : ALAIN BONNET
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées
Date : Soutenance en 1995
Etablissement(s) : Paris, ENST

Résumé

FR

L'objectif général de ce travail est d'évaluer la possibilité de mise en œuvre de techniques à base de corpus aux différents niveaux de traitement automatique du langage naturel (lexical, syntaxique, sémantique,. . . ). Nous nous sommes d'abord intéresses aux corpus eux-mêmes, et, en particulier, aux problèmes poses par la manipulation de volumes importants de données textuelles de nature et d'origine variées. L'importance des normes et des standards (iso, SGML) a été soulignée et les résultats de projets en cours dans le domaine de la structuration des documents (tei-text encoding initiative) et de la représentation normalisée des unités lexicales (projet multext, action grace) ont été présentes. Pour ce qui est du traitement du langage naturel proprement dit, nous avons présente les différents modèles d'analyse syntaxique probabiliste utilise ; en particulier, nous nous sommes intéresses : (1) a la potabilisation des modèles syntaxiques a états finis sous la forme de chaines de Markov a états caches ; (2) a la potabilisation des modèles non-contextuels sous la forme de grammaires stochastiques ; (3) a la potabilisation des modèles à base d'arbres, en particulier celle des grammaires a substitution d'arbres et leur application dans le domaine de l'analyse syntaxique guidée par le données (date oriented parsing). Au niveau sémantique, nous nous sommes consacrés à la définition d'un modele sémantique, la sémantique distributionnelle, permettant la prise en compte, au niveau du sens, d'informations de co-occurrente entre entités linguistiques élémentaires (lemmes par exemple). Nous avons ensuite applique ce modele, qui peut être vu comme un prolongement des techniques de la lexicométrie et de l'analyse de données textuelles dans le champ de l'informatique linguistique, a deux types d'applications particulières de traitement du langage naturel : (1) la classification automatique de documents, et, (2) la recherche documentaire en texte intégral.