Thèse soutenue

Assessment of Speech Intelligibility using Deep Learning : Towards Enhanced Interpretability in Clinical Phonetics

FR  |  
EN
Auteur / Autrice : Sondes Abderrazek
Direction : Corinne Fredouille
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 02/05/2023
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : École doctorale Sciences et agrosciences (Avignon)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique d'Avignon
Jury : Président / Présidente : Anthony Larcher
Examinateurs / Examinatrices : Isabel Trancoso, Virginie Woisard, Jean-François Bonastre
Rapporteur / Rapporteuse : Jean Hennebert, Damien Lolive

Résumé

FR  |  
EN

L’intelligibilité de la parole est une composante essentielle d’une communication efficace. Elle peut être définie comme le degré avec lequel le message d’un locuteur peut être compris par un auditeur. Cette capacité peut être entravée par des troubles de la parole, entraînant potentiellement une diminution de la qualité de vie pour les individus. Dans le cas du cancer de la tête et du cou, la parole peut être affectée par la présence de tumeurs dans l’appareil de production de la parole. Néanmoins, la cause principale est généralement le traitement de la tumeur, impliquant notamment la chirurgie, la radiothérapie, la chimiothérapie ou une combinaison de ces traitements. Dans de tels cas, l’évaluation de la qualité de la parole est cruciale pour évaluer le déficit de communication des patients et élaborer des plans de traitement ciblés. En pratique clinique, les mesures perceptives sont considérées comme un standard pour l’évaluation des troubles de la parole. Bien que ces mesures soient largement utilisées, elles présentent plusieurs limites, la plus importante étant leur subjectivité. Par conséquent, l’évaluation automatique des troubles de la parole s’est révélée être une alternative prometteuse aux mesures perceptives dés les années ’90. Dans cette thèse, nous explorons le potentiel des techniques d’apprentissage profond pour évaluer les troubles de la parole tout en abordant les limites des outils d’évaluation existants. Dans ce contexte clinique sensible où les enjeux sont élevés et la confiance primordiale, nous considérons l’explicabilité et l’interprétabilité de ces outils comme une caractéristique obligatoire plutôt qu’optionnelle. Nous proposons une méthodologie en trois étapes basée sur l’apprentissage profond et dédiée à l’évaluation interprétable de l’intelligibilité dans le contexte des troubles de la parole. Dans la première étape, nous abordons un problème majeur dans les outils automatiques actuels dédiés à l’évaluation de la parole altérée, à savoir une connaissance limitée sur la relation entre les troubles de la parole et le score d’évaluation qui en découle. À cette fin, nous mettons en place un modèle basé sur l’apprentissage profond, entraîné sur de la parole saine et dédié à une tâche intermédiaire de classification des phonèmes du français. Ce choix méthodologique a deux vocations. La première est de tirer bénéfice des connaissances au niveau phonème apportées par la tâche de classification pour répondre au problème majeur évoqué précédemment. La seconde est en lien avec l’utilisation de la parole saine (normale). Elle permet de pallier la quantité très limitée de données pathologiques à disposition, tout en répondant aux exigences élevées en matière de quantité de données de l’apprentissage profond. Dans la deuxième étape, l’objectif majeur est de garantir le développement d’une solution interprétable, en vue de son acceptation en pratique clinique. Dans cet optique, nous étudions la capacité du modèle de classification des phonèmes à produire des connaissances pertinentes liées aux caractéristiques des troubles de la parole ciblés. Nous proposons ainsi un cadre analytique général et original, nommé Neuro-based Concept Detector - NCD, spécialement conçu pour interpréter les représentations profondes d’un modèle. Ce cadre permet de mettre en évidence au sein du modèle de classification issu de la première étape une représentation des caractéristiques acoustiques et articulatoires de la parole saine en terme de traits phonétiques, facilement interprétables en matière d’altérations en cas de troubles de la parole. Enfin, la troisième étape est consacrée à la prédiction d’un score final évaluant l’intelligibilité de la parole d’un individu. Cette étape repose sur les différents niveaux de représentation apportés par les deux étapes précédentes, permettant de mettre en relation le score d’intelligibilité prédit avec le degré d’altération de la parole au niveau phonème et traits phonétiques.