Olmes : un système d'exploration et de structuration de textes : expression et utilisation de contraintes syntaxiques fines par la multi-discrimination et la combinaison fonctionnelles
Auteur / Autrice : | Benoît Habert |
Direction : | Maurice Gross |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences appliquées |
Date : | Soutenance en 1991 |
Etablissement(s) : | Paris 7 |
Mots clés
Mots clés contrôlés
Résumé
Olmes montre l'intérêt des langages à taxonomie de classes pour la représentation et l'utilisation de taxonomies linguistiques et plus généralement pour la réalisation d'analyseurs syntaxiques et d'outils de traitement du langage naturel. Olmes est un analyseur syntaxique général pour le langage naturel. Il est basé sur les formalismes d'unification. Il peut reconnaître les langages légèrement sensibles au contexte (langages indexes). Olmes est écrit en clos (common lisp object system). Il appartient à la famille des analyseurs à graphe actif. Il produit toutes les analyses possibles sans dupliquer ni les hypothèses ni les résultats partiels. Les stratégies montantes, descendantes et mixtes sont disponibles. L'analyse s'effectue de gauche à droite, de droite à gauche, ou de manière bi-directionnelle autour de pivots. Olmes a été réalisé de manière à pouvoir être aisément étendu et à servir de boites à outils pour la réalisation de différents instruments d'analyse de textes. La réutilisabilité des composants de Olmes repose sur la multi-discrimination qui particularise clos au sein des langages à objets : le comportement effectif lors d'un appel de fonction dépend du type ou de l'identité de tous les arguments qui sont fournis à cette fonction. Clos permet également de combiner entre eux les comportements pertinents pour un appel de fonction et ses arguments. A la différence de la plupart des langages à objets, ce n'est pas forcement le comportement le plus spécifique qui est utilisé. L'implémentation de Olmes est utilisée pour l'enseignement de l'analyse syntaxique automatique et de la réalisation d'analyseurs. Les classes qui constituent la base de Olmes ont été spécialisées pour fournir par exemple à des linguistes des outils d'extraction par filtrage d'expressions techniques complexes et le moyen de tester des règles de correction orthographique. Le graphe d'héritage multiple et la combinaison de méthodes ont permis de modéliser les relations complexes que manifestent les expressions idiomatiques (du type faire face, chemin faisant, en dehors de. . . ) entre les règles générales de la syntaxe et des contraintes arbitraires. Ces trois axes de travail manifestent l'apport de la programmation à objets à la conception d'analyseurs syntaxiques. Ils soulignent les diverses facettes de cette approche, sa contribution au génie logiciel et à la production de logiciels réutilisables comme son utilisation pour la représentation de connaissances.