Thèse soutenue

Modeles de sequences de longueurs variables : application au traitement du langage ecrit et de la parole

FR  |  
EN
Auteur / Autrice : Sabine Deligne
Direction : Frédéric Bimbot
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées
Date : Soutenance en 1996
Etablissement(s) : Paris, ENST

Résumé

FR

L'efficacité des algorithmes utilises pour le traitement automatique de la parole et du langage naturel dépend de la bonne définition des formes supposées structurer le matériau linguistique. En règle générale, cette structure sous-jacente n'est pas connue, de sorte qu'elle doit être définie a priori, ou alors inférée à partir de grosses bases de données. Le modele multi gramme relevé de cette dernière approche : il constitue un outil statistique permettant de détecter des motifs récurrents dans des suites d'observations. Il est particulièrement bien approprié pour la description des phénomènes linguistiques, ou les processus de redondance mis en œuvre se traduisent par l'utilisation de séquences de tailles variables, aussi bien au niveau acoustique, phonétique que syntaxique. La bonne détection de ces séquences devrait pouvoir servir avantageusement certaines applications relevant du traitement automatique du langage et de la parole. Les travaux présentes dans cette thèse permettent d'explorer les possibilités offertes par l'approche multi gramme pour la modélisation statistique du langage, pour la recherche d'un jeu minimal d'unités formelles de synthèse, pour la transcription orthographique-phonétique, et pour la définition d'unités acoustiques utilisables en reconnaissance de la parole continue.