Thèse soutenue

Apport des modèles neuronaux de bout-en-bout pour la compréhension automatique de la parole dans l'habitat intelligent

FR  |  
EN
Auteur / Autrice : Thierry Desot
Direction : François PortetMichel Vacher
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/12/2020
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble (2007-....)
Equipe de recherche : Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole
Jury : Président / Présidente : Yannick Estève
Examinateurs / Examinatrices : Solange Rossato
Rapporteur / Rapporteuse : Jean-François Bonastre, Benoît Favre

Résumé

FR  |  
EN

Les enceintes intelligentes offrent la possibilité d’interagir avec les systèmes informatiques de la maison. Elles permettent d’émettre un éventail de requêtes sur des sujets divers et représentent les premières interfaces vocales disponibles couramment dans les environnements domestiques. La compréhension des commandes vocales concerne des énoncés courts ayant une syntaxe simple, dans le domaine des habitats intelligents destinés à favoriser le maintien à domicile des personnes âgées. Ils les assistent dans leur vie quotidienne, améliorant ainsi leur qualité de vie, mais peuvent aussi leur porter assistance en situations de détresse. La conception de ces habitats se concentre surtout sur les aspects de la sécurité et du confort, ciblant fréquemment sur la détection de l’activité humaine. L’aspect communication est moins pris en compte, c’est pourquoi il existe peu de corpus de parole spécifiques au domaine domotique, en particulier pour des langues autres que l’anglais, alorsqu’ils sont essentiels pour développer les systèmes de communication entre l’habitat et ses habitants. La disponibilité de tels corpus, pourrait contribuer au développement d’une génération d’enceintes intelligentes qui soient capables d’extraire des commandes vocales plus complexes. Pour contourner une telle contrainte, une partie de notre travail consiste à développer un générateur de corpus, produisant des commandes vocales spécifiques au domaine domotique, automatiquement annotées d’étiquettes d’intentions et de concepts. Un système de compréhension de la parole (SLU - Spoken Language Understanding) est nécessaire afin d’extraire les intentions et les concepts des commandes vocales avant de les fournir au module de prise de décision en charge de l’exécution des commandes. De manière classique, un module de compréhension du langage naturel (NLU - Natural Language Understanding) est précédé par un module de reconnaissance automatique de la parole (RAP), convertissant automatiquement la parole en transcriptions. Comme plusieurs études l’ont montré, l’enchaînement entre RAP et NLU dans une approche séquentielle de SLU cumule les erreurs. Par conséquent, l’une des motivations principales de nos travaux est le développement d’un module de SLU de bout en bout (End-to-End) visant à extraire les concepts et les intentions directement de la parole. À cette fin, nous élaborons d’abord une approche SLU séquentielle comme approche de référence, dans laquelle une méthode classique de RAP génère des transcriptions qui sont transmises au module NLU, avant de poursuivre par le développement d’un module de SLU de bout en bout. Ces deux systèmes de SLU sont évalués sur un corpus enregistré spécifiquement au domaine de la domotique. Nous étudions si l’information prosodique, à laquelle la SLU de bout en bout a accès, contribue à augmenter les performances. Nous comparons aussi la robustesse des deux approches lorsqu’elles sont confrontées à un style de parole aux niveaux sémantiques et syntaxiques plus varié.Cette étude est menée dans le cadre du projet VocADom financé par l’appel à projets génériques de l’ANR.