Thèse soutenue

Méthodes de représentation et de vérification du locuteur indépendant du texte

FR  |  
EN  |  
ES
Auteur / Autrice : Gabriel Hernandez Sierra
Direction : Jean-François BonastreJosé Calvo De Lara
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 15/12/2014
Etablissement(s) : Avignon en cotutelle avec Universidad de La Habana (Cuba)
Ecole(s) doctorale(s) : École doctorale Sciences et agrosciences (Avignon)
Partenaire(s) de recherche : Laboratoire : lia
Jury : Président / Présidente : Jose Lavandero
Examinateurs / Examinatrices : José Calvo De Lara, Jose Lavandero, Julien L Cardenas, Carlos Ferrer
Rapporteur / Rapporteuse : Julien L Cardenas, Carlos Ferrer

Résumé

FR  |  
EN  |  
ES

La reconnaissance automatique du locuteur indépendante du texte est une méthode récente dans le domaine des systèmes biométriques. Le développement de la reconnaissance du locuteur se reflète tout autant dans la participation croissante aux compétitions internationales et dans les progrès en termes de performance relevés dans ces campagnes. Cependant la précision des méthodes reste limitée par la quantité d'information discriminante du locuteur présente dans les représentations informatiques des énoncés vocaux. Cette thèse présente une étude sur ces représentations. Elle identifie deux faiblesses principales. Tout d’abord, les représentations usuelles ignorent les paramètres temporels de la voix pourtant connus pour leur pouvoir discriminant. Par ailleurs, ces représentations reposent sur le paradigme de l’apprentissage statistique et diminuent l’importance d’événements rares dans une population de locuteurs, mais fréquents dans un locuteur donné.Pour répondre à ces verrous, cette thèse propose une nouvelle représentation des énoncés. Celle-ci projette chaque vecteur acoustique dans un large espace binaire intrinsèquement discriminant du locuteur. Une mesure de similitude associée à une représentation globale (vecteurs cumulatifs) est également proposée. L’approche proposée permet ainsi à la fois de représenter des événements rares mais pertinents et de travailler sur des informations temporelles. Cette approche permet de tirer parti des solutions de compensation de la variabilité « session », qui provient de l’ensemble des facteurs indésirables, exploitées dans les approches de type « iVector ». Dans ce domaine, des améliorations aux algorithmes de l’état de l’art ont été proposées.Une solution originale permettant d’exploiter l’information temporelle à l’intérieur de cette représentation binaire a été proposée. La complémentarité des sources d’information a été attestée par un gain en performance relevé grâce à une fusion linéaire des deux types d’information, indépendant et dépendant de la séquence temporelle.