Thèse soutenue

FR
Auteur / Autrice : Karim Youssef
Direction : Jean-Luc Zarader
Type : Thèse de doctorat
Discipline(s) : Sciences de l'ingénieur
Date : Soutenance en 2013
Etablissement(s) : Paris 6
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris2009-....)
Jury : Président / Présidente : Benoît Fabre
Examinateurs / Examinatrices : Marc Rébillat, Sylvain Argentieri
Rapporteurs / Rapporteuses : Hervé Glotin, Yves Grenier

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

L'homme est capable d'accomplir des tâches auditives décrites en ingénierie comme étant impressionnantes. Par exemple, à partir d'un simple signal de parole, il peut extraire des informations sur l'identité, le message, l'humeur, et la position dans l'espace d'un locuteur. Compte tenu des avancées de la robotique interactive, il y a besoin de munir les robots de telles capacités auditives. Cette thèse traite la reconnaissance et la localisation de locuteurs (et éventuellement d'autres sources de son), tâches souvent précédemment traitées dans des contextes mono et multi-microphones respectivement. Nous traitons ces problèmes sous l'angle de la robotique humanoïde, impliquant ici des signaux auditifs binauraux. L'approche envisagée pour la reconnaissance de locuteurs repose sur un codage MFCC et des modèles de mixture de gaussiennes (GMM). Ensuite, une observation de l'état de l'art concernant la localisation de sources sonores a montré un grand désaccord sur les techniques d'extraction d'indices acoustiques. Une comparaison des différents indices d'azimut et de distance proposés dans la littérature est donc exécutée et les indices jugés meilleurs sont adoptés dans la suite où nous présentons une approche de localisation. Elle consiste en une estimation d'azimut d'une part, puis de distance d'autre part. L'estimation d'azimut s'appuie sur les différences interaurales de temps et d'énergie (ITD et ILD) calculées en fonction de la fréquence, aux sorties de bancs de filtres cochléaires. L'estimation de distance utilise le rapport des énergies directes sur réverbérantes, dépendant de la fréquence. Dans chacun de ces cas, un réseau de neurones artificiel apprend à estimer la donnée correspondante. Certains effets de l'audition humaine ont été pris en compte, notamment l'effet duplex séparant les pertinences des ITDs et ILDs en fonction de la fréquence, et l'effet de précédence aidant à contourner les conséquences de la présence de réflexions d'ondes sonores dans l'environnement. L'évaluation des systèmes proposés doit prendre en compte des contraintes environnementales (telle que la présence de bruit et de réverbérations) rencontrées en robotique. Dans ce but, des bases de données incluant ces contraintes ont été établies, en simulation et en enregistrements réels. L'évaluation porte sur plusieurs aspects du fonctionnement d'un robot dans une pièce réaliste, et démontre la stabilité des approches présentées. Pourtant, une sensibilité à certains changements de conditions entre l'apprentissage et le test de nos systèmes doit être abordée, et peut être contournée par des apprentissages multi-conditionnels. Les travaux effectués supposent la présence d'une seule source sonore d'intérêt (locuteur) dans l'environnement, et n'utilisent que le son. Des propositions d'amélioration sur ces deux aspects sont finalement présentées, par des lignes directives d'un système de localisation multi-sources, et une technique de localisation par apprentissage visio-auditif respectivement.