Thèse soutenue

FR
Auteur / Autrice : Rania Bayeh
Direction : Gérard CholletChafic Mokbel
Type : Thèse de doctorat
Discipline(s) : Signal et images
Date : Soutenance en 2009
Etablissement(s) : Paris, Télécom ParisTech

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Le traitement de la parole est devenu une technologie clé et des systèmes de reconnaissance automatique de la parole (RAP) sont disponibles pour les langues populaires. Les utilisateurs de tels systèmes ne sont pas toujours des locuteurs natals et les conversations sont souvent un mélange de langues variées. Alors, un système pour la reconnaissance de plusieurs langues est nécessaire. Dans le cadre de la RAP multilingue et avec l'objectif de la modélisation acoustique universelle, cette thèse vise le «portage» des modèles acoustiques (MA) d'une langue peu-dotées à partir des MA d'une langue populaire. L’approche dite «portage» consiste à trouver une association entre les unités de la langue source et celles de la langue cible, initialiser les MA cibles à partir de cette association et finalement adapter ces modèles avec peu de données. Des méthodes «knowledge-driven» et «data-driven» sont étudiées pour l’association entre l’Arabe Standard (langue cible) et le Français (langue source) pour différents types d’élocution et d’applications. A partir des associations obtenues, chaque MA HMM cible indépendant du contexte (CI) est initialisé d'un seul modèle acoustique HMM source et une adaptation de ces modèles est appliquée. Pour l’initialisation des MA cible a partir de plusieurs MA source, de nouveaux modèles «multi-path» sont proposés. En plus, Les MA dépendant du contexte (CD) sont meilleure que ceux indépendant du contexte pour la RAP monolingue et multilingue. Alors, différentes méthodes sont ainsi proposées pour porter des MA CD d’une langue source à une langue cible avec peu de données. Toutes approches sont aussi validées pour une nouvelle langue, L’arabe dialectale.