Thèse soutenue

COSMO : un modèle bayésien des interactions sensori-motrices dans la perception de la parole

FR  |  
EN
Auteur / Autrice : Raphael Laurent
Direction : Julien DiardJean-Luc SchwartzPierre Bessière
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/10/2014
Etablissement(s) : Grenoble
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de psychologie et neurocognition (Grenoble ; Chambery ; 1996?-....) - Laboratoire d'informatique de Grenoble - Grenoble Images parole signal automatique
Jury : Président / Présidente : Pascal Perrier
Examinateurs / Examinatrices : Roger Moore, Pierre-Yves Oudeyer
Rapporteurs / Rapporteuses : Yves Laprie, Emmanuel Dupoux

Résumé

FR  |  
EN

Si la parole est une faculté dont l'usage nous semble parfaitement naturel,il reste toutefois beaucoup à comprendre sur la nature des représentations et des processus cognitifs qui la gouvernent. Au cœur de cette thèse se trouve la question des interactions entre perception et action dans la production et la perception de syllabes. Nous adoptons le cadre rigoureux de la programmation bayésienne au sein duquel nous définissons mathématiquement le modèle COSMO (pour "Communicating Objects using Sensori-Motor Operations"), qui permet de formaliser les théories motrice, auditive et perceptuo-motrice de la communication parlée et de les étudier quantitativement. Cette approche conduit à un premier résultat théorique fort : nous démontrons un théorème d'indistinguabilité d'après lequel, lorsque l'on pose certaines hypothèses de conditions idéales d'apprentissage, les théories auditive et motrice font des prédictions identiques pour des tâches de perception, et sont de ce fait indistinguables. Pour s'éloigner de ces conditions, nous proposons un algorithme original d'apprentissage sensori-moteur “par accommodation”, qui permet de s'adapter au bain acoustique ambiant tout en développant des idiosyncrasies. Cet algorithme d'apprentissage par imitation de ciblesacoustiques permet l'apprentissage de compétences motrices à partir d'entrées perceptives uniquement, avec la propriété remarquable de se focaliser sur les régions d'intérêt pour l'apprentissage. Nous utilisons des syllabes synthétisées grâce au modèle de conduit vocal VLAM pour analyser les dynamiques d'évolution des modèles appris ainsi que leur robustesse aux dégradations.