Thèse soutenue

Prononcer par analogie : motivation, formalisation et evaluation

FR  |  
EN
Auteur / Autrice : François Yvon
Direction : ALAIN BONNET
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées
Date : Soutenance en 1996
Etablissement(s) : Paris, ENST

Résumé

FR

La transcription de textes écrits en la séquence de phonèmes correspondante est une étape importante dans de nombreuses applications du traitement automatique du langage et de la parole. Cette opération est traditionnellement réalisée par des systèmes de règles de récriture dépendant du contexte, auxquels sont adjoints, dans des proportions variables, des dictionnaires stockant les formes phonétiques des lexies les plus communes et/ou les plus exceptionnelles. Tirant les conséquences de la grande difficulté de conception que posent ces systèmes de règles, des limites intrinsèques de l'approche par règle, et, par contraste, de la disponibilité croissante de vastes lexiques phonétiques, en particulier de noms propres, et de procédure permettant de les exploiter efficacement, ce travail envisage le développement de méthodes d'apprentissage de systèmes de transcriptions à partir de connaissances lexicales. Nous procédons dans un premier temps a une revue critique des multiples approches classificatoires de ce problème, qui considère cet apprentissage sous l'angle de l'inférence de fonctions discriminantes statistiques (réseaux de neurones, arbres de décision, plus proches voisins, etc). Dans cette optique, le lexique est essentiellement considéré comme un ensemble de lettres, chaque lettre étant appariée avec le phonème correspondant, à partir duquel il s'agit d'inférer des règles de classement des symboles graphiques. Les problèmes pratiques et théoriques qu'une telle démarche soulevé sont passés en revue et illustres par de nombreux résultats obtenus à l'aide d'une méthode d'extraction d'arbres de décision. Une première alternative aux systèmes classificatoires est ensuite développée, qui consiste à envisager la transcription des mots hors-lexique par recombinaison (exemplairement la juxtaposition) de fragments de taille variable d'entrées lexicales. Nous étendons les algorithmes existants, et proposons plusieurs mécanismes de construction et d'évaluation des multiples recombinaisons envisageables. Le principal résultat de cette étude est la définition d'un critère structurel d'évaluation des transcriptions, fonde sur le concept de recouvrement entre fragments adjacents, et à l'aide duquel nous obtenons des performances significativement meilleures que celles obtenues avec un algorithme classificatoire de référence. Une seconde alternative aux systèmes classificatoires est finalement présentée, au fondement de laquelle l'idée que les lexiques de langage naturel sont bien plus que des collections d'objets indépendants, mais possèdent un mode d'organisation extrêmement riche que nous cherchons à capturer à travers le concept de paradigme. Dans cette nouvelle optique, les chaines graphiques hors-lexiques sont prononcées en deux temps. Une première étape consiste à leur appliquer des récritures hors-contexte judicieusement choisies, de manière à reconstituer une ou des lexies existantes (les lexies analogues). Ces récritures, qui correspondent exemplairement à des dérivations morphologiques, sont extraites automatiquement du lexique d'exemples. Le second temps de la procédure consiste à appliquer en retour aux transcriptions des analogues des transformations non-contextuelles dans le domaine phonétique, transformations qui ont préalablement été couplées aux transformations graphiques utilisées dans l'étape de recherche des analogues. Nous montrons les bénéfices d'un tel changement d'optique, aussi bien en terme de modélisation des phénomènes analogiques, de pertinence linguistique, et de qualité des transcriptions produites. Des expériences complémentaires dans lesquelles une telle démarche est appliquée avec succès a l'apprentissage de la conjugaison des verbes anglais sont également présentées.