Thèse en cours

Modélisation de mécanismes d'action-perception pour des gestes vocaux avec des réservoirs hiérarchiques

FR  |  
EN
Auteur / Autrice : Nathan Trouvain
Direction : Xavier Hinaut
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 24/01/2023
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale de mathématiques et informatique
Partenaire(s) de recherche : Laboratoire : Laboratoire bordelais de recherche en informatique
Equipe de recherche : Images et Son

Résumé

FR  |  
EN

L'objectif général du projet est de construire un modèle neuronal dynamique du traitement et de la production vocale : le modèle devra être développemental, hiérarchique et utiliser des mécanismes d'action-perception. Ce modèle multi-échelle ira de l'imitation vocale sensorimotrice au traitement et à la production de longues séquences. Il utilisera des schémas d'apprentissage incrémental, avec une exploration dirigée vers un but et cherchera l'émergence de symboles. Nous voulons créer un mécanisme générique d'action-perception qui (i) permettrait à l'action et à la perception de se façonner mutuellement, (ii) tout en permettant d'amorcer le développement de représentations à partir de perceptions sonores brutes, et (iii) qui pourrait être empilé comme les couches d'une architecture hiérarchique. Dans ce projet de thèse, les méthodes développées seront basées sur les réservoirs, un type particulier de réseau neuronal récurrent (RNN). Un réservoir [3] est un réseau neuronal récurrent aléatoire composé d'unités non linéaires qui a été utilisé pour modéliser diverses zones corticales [2, 12]. Les réservoirs n'impliquent pas le déroulement du temps comme le BPTT utilisé dans les LSTM. Afin de construire des mécanismes de perception de l'action, nous intégrerons divers concepts d'apprentissage incrémental, développemental, par renforcement et non supervisé. En particulier, nous nous appuierons sur les résultats préliminaires que nous avons obtenus sur l'apprentissage distal avec des réservoirs [4]. Nous utiliserons et développerons également de nouvelles règles d'apprentissage par renforcement adaptées à l'informatique des réservoirs, telles que les règles exploratoires de Hebbian [7], que nous combinerons avec des règles d'apprentissage non supervisé que nous avons précédemment développées, telles que les cartes dynamiques auto-organisées (DSOM) [9]. De plus, nous améliorerons ces modèles avec un mécanisme robuste de mémoire à long terme que nous avons récemment développé [12]. Nous commencerons par implémenter l'architecture sensorimotrice complète que nous avons définie dans notre revue [8]. Nous nous appuierons sur nos résultats récents sur des données de parole humaine et de chant d'oiseaux. Par exemple, du côté des oiseaux chanteurs, nous avons construit un modèle sensorimoteur simple utilisant un réservoir comme décodeur perceptif, une simple règle d'apprentissage de Hebbian pour le modèle inverse, et un Generative Adversarial Network (GAN) comme générateur de sons à partir des commandes motrices. Ce modèle est capable de reproduire fidèlement des syllabes canaris en utilisant seulement un espace latent tridimensionnel [13, 14]. Afin de créer la couche centrale d'action-perception, les premières étapes seront d'incorporer un modèle avant et de remplacer le GAN par un réservoir. Par la suite, nous empilerons plusieurs de ces couches à différents niveaux de hiérarchie afin d'extraire des chunks (c'est-à-dire des groupes d'éléments acoustiques) de taille et de complexité croissantes. Les modèles seront amorcés à partir d'un apprentissage dirigé vers un objectif (par exemple, l'imitation vocale). Les caractéristiques du modèle ne seront pas prédéfinies par le modélisateur, mais elles émergeront à travers les processus de développement. Comme nous utiliserons des composants de modèles similaires, nous serons en mesure d'appliquer des méthodes d'analyse similaires, ce qui facilitera les analyses multi-échelles. Les mécanismes RNN développés seront appliqués à la parole humaine et aux chants d'oiseaux, car ils partagent des propriétés similaires adaptées au projet : les humains et les oiseaux apprennent à imiter les sons complexes produits par leurs congénères ; ils les apprennent au cours de leur développement à partir d'une phase d'exploration par babillage ; les chants d'oiseaux et le langage humain partagent tous deux une organisation hiérarchique des éléments avec des tailles de morceaux croissantes ; le contexte temporel est essentiel pour prendre des décisions sur les morceaux (c'est-à-dire la délimitation des morceaux). Des modèles de production vocale sont disponibles pour les humains et les oiseaux (par exemple, VocalTractLab pour la voix humaine) [8]. Les modèles génériques, tels que les réservoirs aléatoires, peuvent avoir un impact sur plusieurs domaines, ouvrant la voie à des adaptations potentielles à des tâches non vocales. Les méthodes et mécanismes neuronaux qui seront développés ne seront pas limités aux applications audio, mais seront suffisamment génériques pour être également appliqués à d'autres domaines tels que l'apprentissage de gestes moteurs. Comme ces méthodes seront basées sur l'apprentissage en ligne, incrémental et faiblement supervisé, elles pourraient fournir des méthodes plus efficaces utiles pour les domaines de l'apprentissage automatique et de l'intelligence artificielle. De plus, ces modèles sensorimoteurs seront utilisés comme outils pour analyser les données expérimentales en neurosciences de nos collaborateurs avec une nouvelle perspective, et pourraient aider à long terme à mieux comprendre les mécanismes à l'œuvre dans les thérapies de réhabilitation de la parole.