Thèse soutenue

Détection automatique de langue par discrimination d'experts

FR
Auteur / Autrice : Sébastien Herry
Direction : Jean-Luc Zarader
Type : Thèse de doctorat
Discipline(s) : Traitement du signal
Date : Soutenance en 2007
Etablissement(s) : Paris 6

Résumé

FR  |  
EN

L'objectif du travail présenté dans ce mémoire est de détecter de façon automatique une langue dans un flux audio. Pour cela, nous proposons un modèle qui, à l’instar d’experts bilingues, effectue une discrimination par paires de langues avec pour information discriminante, l’information acoustique. Parmi les contraintes imposées, on notera que le système doit : être temps réel, utiliser des bases sans étiquetage, pouvoir intégrer de nouvelles langues avec un apprentissage minimal. Dans un premier temps nous avons mis en œuvre un système de Détection Automatique de Langue (DAL) reprenant l’état de l’art. Les résultats obtenus sur ce système de référence ont servi de comparaison avec ceux obtenus par les systèmes que nous avons développés. Dans un premier temps nous avons proposé un ensemble de discriminateurs, par paire de langue, basés sur des réseaux de neurones. Le traitement est effectué sur toute la durée du segment de parole. Les résultats obtenus sur ces discriminateurs sont ensuite fusionnés afin de réaliser la détection. Ce modèle a fait l’objet d’un brevet. Nous avons ensuite étudié plus précisément l'influence de différents paramètres tels que le nombre de locuteurs, les variations intra et inter corpus ou encore la robustesse. Puis nous avons comparé la modélisation proposée, c'est-à-dire discriminante, à d'autres modélisations auto-régressive et/ou prédictive. Ce système a ensuite été testé dans le cadre de la campagne d’évaluation internationale organisée par le NIST en décembre 2005. Suite à cette évaluation, à laquelle participaient 17 équipes internationales, nous avons proposé plusieurs améliorations basées sur : une normalisation de la base de données, une modification de la base de locuteurs en apprentissage uniquement, une prise en compte de la durée de la phrase en test En conclusion, le système proposé répond bien aux contraintes imposées puisqu'il est temps réel et n’utilise que l’information acoustique. Il est aussi plus performant que le modèle issu de l'état de l'art. Enfin, il est robuste au bruit, au changement de langue et de corpus d’évaluation.