Bénéfices et limites des représentations en facteur de variabilité totale pour la reconnaissance du locuteur
Auteur / Autrice : | Pierre-Michel Bousquet |
Direction : | Jean-François Bonastre |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 23/05/2014 |
Etablissement(s) : | Avignon |
Ecole(s) doctorale(s) : | École doctorale Sciences et agrosciences (Avignon) |
Jury : | Président / Présidente : Delphine Blanke |
Examinateurs / Examinatrices : Sylvain Meignier, Driss Matrouf, Yannick Estève | |
Rapporteurs / Rapporteuses : Samy Bengio, Pietro Laface |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Le domaine de la reconnaissance automatique du locuteur (RAL) recouvre l’ensembledes techniques visant à discriminer des locuteurs à partir de leurs énoncésde voix. Il se classe dans la famille des procédures d’authentification biométrique del’identité. La reconnaissance du locuteur a connu ces dernières années une avancée significativeavec un nouveau concept de représentation de l’énoncé de voix, désignésous le terme de i-vector. Ce type de représentation s’appuie sur le paradigme de modélisationpar mélange de gaussiennes et présente la particularité de se réduire numériquementà un vecteur de dimension faible, au regard des représentations précédentes,et pourtant très discriminant vis à vis du locuteur.Les travaux présentés dans cette thèse s’inscrivent dans ce nouveau contexte. Orientésautour de cette représentation, ils visent à en comprendre et évaluer les hypothèses,les points fondamentaux, le comportement et les limites.Nous avons en premier lieu conduit une analyse statistique sur cette nouvelle représentation.L’étude a porté sur l’effet et l’importance relative des différentes étapes deconstitution et d’exploitation du concept. Cette analyse a permis de mieux comprendreses caractéristiques, mais aussi de faire apparaître des défauts de la représentation quinous ont conduits à mettre en place de nouvelles transformations dans cet espace. L’objectifde ces techniques est de faire converger les données vers des modèles théoriques,à meilleur pouvoir discriminant. Nous recensons et démontrons un certain nombre depropriétés induites par ces transformations, qui justifient leur emploi. En terme de performance,ces techniques réduisent d’un ordre de grandeur de 50% les taux d’erreurdes systèmes basés sur les i-vectors et des postulats gaussiens, permettant notammentd’atteindre par la voie du cadre probabiliste gaussien les meilleurs taux de détectiondans le domaine.Une évaluation générale des composants de la méthode est ensuite détaillée dansce document. Elle met en avant l’importance de certaines étapes, permettant ainsi dedégager, par comparaison à des méthodes alternatives, les approches fondamentalesqui confèrent au concept une valeur de paradigme. Nous montrons la primauté decertaines étapes stratégiques dans la chaîne des traitements, parmi lesquelles les transformationsque nous avons mises en place, et leur relative indépendance aux méthodes et hypothèses adoptées.Des limites de la solution sont mises au jour et exposées dans une étude dite d’anisotropie,qui relativise sa capacité à produire une paramétrisation linéaire globale des variabilitésqui soit optimale.En parallèle de ces investigations, nous avons participé à l’exploration d’un nouveaumodèle alternatif à la solution la plus usuelle de représentation des énoncés devoix. Conçu par J.F. Bonastre, il produit des vecteurs sous forme de clés binaires etfournit les moyens de les comparer, en suivant une voie semi-paramétrique basée surune nouvelle approche de la problématique. Cette exploration a contribué à l’améliorationde ce modèle et à l’ouverture de nouvelles pistes. Elle a été également utile à notreévaluation du concept de i-vector.Les travaux présentés dans ce document contribuent à l’amélioration de ce modèleet à l’ouverture de nouvelles pistes. Ils sont également utiles à notre évaluation duconcept de i-vector.Enfin, quelques aménagements des solutions i-vectors à des cas particuliers ont étémis en place : nous proposons de nouvelles variantes pour gérer la décision sur lesénoncés de courte durée (qui constituent l’un des enjeux actuels du domaine) et sur lesénoncés présentant une divergence a priori (support, durée, langue distincts).L’ensemble de ces travaux vise à mieux circonscrire les pistes de recherche les plusporteuses autour de ce nouveau concept de représentation de la voix humaine