Thèse soutenue

Outil de reconnaissance d'expressions linguistiques complexes dans des grands corpus

FR
Auteur / Autrice : Jean Senellart
Direction : Maurice Gross
Type : Thèse de doctorat
Discipline(s) : Chimie
Date : Soutenance en 1999
Etablissement(s) : Paris 7

Résumé

FR

Nous decrivons la reconnaissance d'expressions linguistiques complexes du francais. Ces expressions linguistiques complexes sont essentiellement des expressions figees decrites dans des tables du lexique-grammaire du francais elabore au ladl et des grammaires locales de description de divers phenomenes comme la negation ou la description de titres de personnalites par automates finis. Nous prouvons que ces unites reconnues, par leur caractere fige, ne pourraient etre analysees autrement. La couverture de ces grammaires est d'environ un mot sur deux dans un texte. Cette reconnaissance se base sur une extension des transducteurs finis, et sur le concept de graphe patron permettant de transformer les entrees des tables du lexique-grammaire en transducteurs independants. Algorithmiquement, le probleme consiste en la reconnaissance d'expressions decrites par un tres grand nombre de transducteurs finis dans les graphes acycliques que sont les automates de texte. Ce probleme est traite par l'utilisation d'une structure d'index et d'algorithmes nouveaux et efficaces de pattern-matching sur ces structures. Nous demontrons l'equivalence de certains de ces algorithmes avec les algorithmes de flot maximal (ford et fulkerson). Des textes d'une taille equivalente a une annee de quotidien (quelques centaines de millions de caracteres) sont ainsi traites.