Méthodes de représentation et de vérification du locuteur indépendant du texte
Auteur / Autrice : | Gabriel Hernandez Sierra |
Direction : | Jean-François Bonastre, José Calvo De Lara |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 15/12/2014 |
Etablissement(s) : | Avignon en cotutelle avec Universidad de La Habana (Cuba) |
Ecole(s) doctorale(s) : | École doctorale Sciences et agrosciences (Avignon) |
Partenaire(s) de recherche : | Laboratoire : lia |
Jury : | Président / Présidente : Jose Lavandero |
Examinateurs / Examinatrices : José Calvo De Lara, Jose Lavandero, Julien L Cardenas, Carlos Ferrer | |
Rapporteur / Rapporteuse : Julien L Cardenas, Carlos Ferrer |
Mots clés
Mots clés contrôlés
Résumé
La reconnaissance automatique du locuteur indépendante du texte est une méthode récente dans le domaine des systèmes biométriques. Le développement de la reconnaissance du locuteur se reflète tout autant dans la participation croissante aux compétitions internationales et dans les progrès en termes de performance relevés dans ces campagnes. Cependant la précision des méthodes reste limitée par la quantité d'information discriminante du locuteur présente dans les représentations informatiques des énoncés vocaux. Cette thèse présente une étude sur ces représentations. Elle identifie deux faiblesses principales. Tout d’abord, les représentations usuelles ignorent les paramètres temporels de la voix pourtant connus pour leur pouvoir discriminant. Par ailleurs, ces représentations reposent sur le paradigme de l’apprentissage statistique et diminuent l’importance d’événements rares dans une population de locuteurs, mais fréquents dans un locuteur donné.Pour répondre à ces verrous, cette thèse propose une nouvelle représentation des énoncés. Celle-ci projette chaque vecteur acoustique dans un large espace binaire intrinsèquement discriminant du locuteur. Une mesure de similitude associée à une représentation globale (vecteurs cumulatifs) est également proposée. L’approche proposée permet ainsi à la fois de représenter des événements rares mais pertinents et de travailler sur des informations temporelles. Cette approche permet de tirer parti des solutions de compensation de la variabilité « session », qui provient de l’ensemble des facteurs indésirables, exploitées dans les approches de type « iVector ». Dans ce domaine, des améliorations aux algorithmes de l’état de l’art ont été proposées.Une solution originale permettant d’exploiter l’information temporelle à l’intérieur de cette représentation binaire a été proposée. La complémentarité des sources d’information a été attestée par un gain en performance relevé grâce à une fusion linéaire des deux types d’information, indépendant et dépendant de la séquence temporelle.