Thèse soutenue

Apprentissage profond pour la détection du bégaiement

FR  |  
EN
Auteur / Autrice : Shakeel Ahmad Sheikh
Direction : Slim Ouni
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 24/02/2023
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Armelle Brun
Examinateurs / Examinatrices : Slim Ouni, Benjamin Lecouteux, Corinne Fredouille
Rapporteurs / Rapporteuses : Benjamin Lecouteux, Corinne Fredouille

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le bégaiement est un trouble de la parole qui est le plus fréquemment observé parmi les troubles de la parole et se traduit par des comportements principaux. La fastidieuse tâche de détection et d'analyse des schémas de parole des Persons who stutter (PWS), dans le but de les rectifier, est souvent traitée manuellement par les orthophonistes et est biaisée par leurs croyances subjectives. De plus, les systèmes de reconnaissance automatique de la parole, «Automatic speech recognition (ASR)», ne parviennent pas non plus à reconnaître les bégaiements. Cela empêche les personnes handicapées d'accéder à des assistants numériques virtuels tels que Siri, Alexa, etc. Cette thèse tente de développer des systèmes de détection du bégaiement, Stuttering detection (SD), basés sur l'audio qui réussissent à capturer les différentes variabilités des énoncés de bégaiement telles que les styles d'expression, l'âge, les accents, etc., et apprennent des représentations robustes du bégaiement dans le but de fournir une évaluation juste, cohérente et impartiale de la parole bégayée. Alors que la plupart des systèmes SD existants utilisent plusieurs classificateurs binaires pour chaque type de bégaiement, nous présentons un système multi-classe unifié nommé StutterNet capable de détecter plusieurs types de bègues. En abordant le problème du déséquilibre des classes dans le domaine du bégaiement, nous avons étudié l'impact de l'application d'une fonction de perte pondérée et nous avons également présenté un StutterNet multi-contextuel pour améliorer la détection des types minoritaires. En exploitant les informations sur le locuteur et en supposant que les modèles de bégaiement sont invariants par rapport aux méta-données telles que les informations sur le locuteur, nous présentons un apprentissage multi-tâches «Multi-task learning (MTL)» SD qui apprend des représentations robustes discriminant le bégaiement et les invariantes par rapport au locuteur. En raison de la rareté des données non étiquetées, la tâche automatisée de détection du bégaiement est limitée dans son utilisation des modèles d'apprentissages profonds de grande taille lorsqu'il s'agit de capturer différentes variabilités. Nous avons introduit la toute première architecture d'apprentissage auto-supervisé «Self-supervised learning (SSL)», dans le domaine de la détection du bégaiement. L'architecture SSL entraîne d'abord un extracteur de caractéristiques pour une tâche de pré-texte en utilisant une grande quantité de données audio non étiquetées et non bégayantes pour capturer ces différentes variabilités. Puis elle applique l'extracteur de caractéristiques appris à une tâche SD en aval, en utilisant des données audio étiquetées limitées et bégayantes.