Apprentissage profond pour la détection du bégaiement
Auteur / Autrice : | Shakeel Ahmad Sheikh |
Direction : | Slim Ouni |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 24/02/2023 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications |
Jury : | Président / Présidente : Armelle Brun |
Examinateurs / Examinatrices : Slim Ouni, Benjamin Lecouteux, Corinne Fredouille | |
Rapporteurs / Rapporteuses : Benjamin Lecouteux, Corinne Fredouille |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Le bégaiement est un trouble de la parole qui est le plus fréquemment observé parmi les troubles de la parole et se traduit par des comportements principaux. La fastidieuse tâche de détection et d'analyse des schémas de parole des Persons who stutter (PWS), dans le but de les rectifier, est souvent traitée manuellement par les orthophonistes et est biaisée par leurs croyances subjectives. De plus, les systèmes de reconnaissance automatique de la parole, «Automatic speech recognition (ASR)», ne parviennent pas non plus à reconnaître les bégaiements. Cela empêche les personnes handicapées d'accéder à des assistants numériques virtuels tels que Siri, Alexa, etc. Cette thèse tente de développer des systèmes de détection du bégaiement, Stuttering detection (SD), basés sur l'audio qui réussissent à capturer les différentes variabilités des énoncés de bégaiement telles que les styles d'expression, l'âge, les accents, etc., et apprennent des représentations robustes du bégaiement dans le but de fournir une évaluation juste, cohérente et impartiale de la parole bégayée. Alors que la plupart des systèmes SD existants utilisent plusieurs classificateurs binaires pour chaque type de bégaiement, nous présentons un système multi-classe unifié nommé StutterNet capable de détecter plusieurs types de bègues. En abordant le problème du déséquilibre des classes dans le domaine du bégaiement, nous avons étudié l'impact de l'application d'une fonction de perte pondérée et nous avons également présenté un StutterNet multi-contextuel pour améliorer la détection des types minoritaires. En exploitant les informations sur le locuteur et en supposant que les modèles de bégaiement sont invariants par rapport aux méta-données telles que les informations sur le locuteur, nous présentons un apprentissage multi-tâches «Multi-task learning (MTL)» SD qui apprend des représentations robustes discriminant le bégaiement et les invariantes par rapport au locuteur. En raison de la rareté des données non étiquetées, la tâche automatisée de détection du bégaiement est limitée dans son utilisation des modèles d'apprentissages profonds de grande taille lorsqu'il s'agit de capturer différentes variabilités. Nous avons introduit la toute première architecture d'apprentissage auto-supervisé «Self-supervised learning (SSL)», dans le domaine de la détection du bégaiement. L'architecture SSL entraîne d'abord un extracteur de caractéristiques pour une tâche de pré-texte en utilisant une grande quantité de données audio non étiquetées et non bégayantes pour capturer ces différentes variabilités. Puis elle applique l'extracteur de caractéristiques appris à une tâche SD en aval, en utilisant des données audio étiquetées limitées et bégayantes.