Thèse soutenue

Dictionnaires electroniques et reconnaissance lexicale automatique

FR  |  
EN
Auteur / Autrice : Max Silberztein
Direction : Maurice Gross
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées
Date : Soutenance en 1989
Etablissement(s) : Paris 7

Résumé

FR

Lors de l'analyse linguistique automatique de textes rediges dans une langue naturelle, il est necessaire de disposer d'un minimum d'informations grammaticales concernant les mots des textes. Ces informations sont rangees dans des dictionnaires. L'etape preliminaire qui consiste a reconnaitre les occurrences de mots, et a leur associer l'information lexicale correspondante s'appelle la reconnaissance lexicale. Nous montrons que cette etape est loin d'etre simple a mettre en uvre; elle necessite l'acces a des bases de donnees linguistiques completes et fait appel a des programmes specifiques d'analyse morphologique et de reconnaissance des mots simples et composes. Les dictionnaires electroniques doivent etre utilisables par des programmes informatiques; ils sont differents des dictionnaires traditionnels a usage humain car ils doivent etre exhaustifs, ils doivent contenir des informations explicites et coherentes. Ces contraintes font que la construction d'un dictionnaire electronique necessite des procedures specifiques de verification. Cette these decrit la construction du dictionnaire electronique delac qui contient plus de 90000 mots composes, comme pomme-de-terre, ainsi de suite, etc. Afin de reconnaitre automatiquement les mots simples et composes dans les textes, l'analyseur lexical doit pouvoir effectuer une analyse morphologique. Par exemple, pour reconnaitre le nom compose cousin germain et le verbe venir dans la phrase: tes cousines germaines viendront demain, il faut pouvoir relier les formes flechies aux entrees lexicales correspondantes. Cette these decrit la methode utilisee pour resoudre ce type de problemes. Les phenomenes linguistiques que l'on doit decrire en vue de la reconnaissance des mots composes peuvent etre decrits par des automates. Ces outils formels permettent par ailleurs de representer des phenomenes linguistiques locaux, a la frontiere entre le lexique et la syntaxe. La pr