Caractérisation et mesure de la compréhensibilité de la parole de locuteurs non natifs dans le cadre de l'apprentissage des langues
Auteur / Autrice : | Verdiana De Fino |
Direction : | Julien Pinquier, Isabelle Ferrané |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et Télécommunications |
Date : | Soutenance le 11/03/2024 |
Etablissement(s) : | Université de Toulouse (2023-....) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, informatique et télécommunications (Toulouse) |
Partenaire(s) de recherche : | Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....) |
Jury : | Président / Présidente : Sylvain Detey |
Rapporteurs / Rapporteuses : Martine Adda-Decker, Marie Tahon |
Mots clés
Résumé
Se faire comprendre en situation de communication, voire d'interaction orale, est essentiel au quotidien. La compréhensibilité est ainsi devenue un objectif important dans le domaine de l'apprentissage des langues, plus encore que d'avoir une parole sans accent étranger, proche d'un locuteur natif. Cependant, les enseignants et apprenants d'une langue étrangère (L2) ne disposent pas d'outils automatiques leur permettant d'évaluer de manière objective la compréhensibilité des productions orales. La compréhensibilité représente un concept linguistique influencé par des dimensions comme la phonologie/phonétique, la fluence, le lexique, la syntaxe et le discours. En plus de ces dimensions, elle peut également être influencée par le profil d'un apprenant (sa langue maternelle, ou L1, plus ou moins proche de la langue cible), le profil d'un auditeur (familiarisé ou non avec l'accent de l'apprenant) et la tâche de production orale pour les mettre en situation et collecter la parole des apprenants. Dans nos travaux de recherche nous nous sommes intéressés à la description de ces différentes dimensions dans la littérature. Nous avons ensuite implémenté différents paramètres considérés comme ayant une influence sur la compréhensibilité de la parole. Une première étape a été de valider leur adéquation lors d'une tâche de prédiction du niveau CECRL (Cadre Européen Commun de Référence pour les Langues) des apprenants du corpus CLIJAF. En se fondant sur ces paramètres linguistiques multi-niveaux, nous avons pu aborder la contribution principale de ce travail de thèse en proposant une méthode permettant de mesurer de manière automatique la compréhensibilité des apprenants. Afin d'évaluer la compréhensibilité, nous avons réalisé deux corpus : CAF-jp (Compréhensibilité d'Apprenants du Français - Japonais) et CAF-al (Compréhensibilité d'Apprenants du Français - Allemands). Ces corpus contiennent respectivement des productions orales de 40 apprenants japonais et 9 apprenants allemands de français. La mise en place d'un protocole de collecte a permis de collecter des productions orales. Ce protocole est basé sur une tâche de traduction orale, en L2, d'énoncés écrits en L1. Les énoncés ont été spécifiquement construits par des experts de FLE (Français Langue Étrangère) afin de contenir des difficultés typiques de traduction propres à chaque paire L1/français. Une fois la collecte des données effectuée, nous avons créé un protocole d'annotations nous permettant d'obtenir des évaluations subjectives de la compréhensibilité de la parole. Nous avons mené une campagne d'annotation auprès de 80 Français natifs et avons collecté 3920 scores de compréhensibilité, dont la moitié correspondent à la compréhensibilité a priori (compréhensibilité perçue) et l'autre moitié à la compréhensibilité a posteriori (compréhensibilité du sens du message véhiculé après prise en compte du réel sens du message à véhiculer). Afin de prédire automatiquement la compréhensibilité de la parole des apprenants, nous mettons en place une phase d'extraction de paramètres sur les productions orales. Ces paramètres sont d'ordre phonético-phonologique, lexical, syntaxique, discursif et sémantique. Nous obtenons d'excellents résultats de prédiction, aussi bien pour le corpus CAF-jp (r=0,97, MAE=0,15) que pour le corpus CAF-al (r=0,98, MAE=0,18), en utilisant l'algorithme Random Forest, une stratégie de fusion précoce et une validation croisée imbriquée de type leave-one-out. De plus, en entraînant un modèle sur la totalité des données du corpus CAF-jp et en testant sur les données du corpus CAF-al, nous obtenons également de bonnes performances (r=0,98, MAE=0,34), montrant ainsi la généricité de notre approche. Nos différents résultats montrent que notre méthodologie de prédiction de la compréhensibilité est tout à fait adaptée à l'évaluation de l'apprentissage du français L2, et pourrait même être appliquée à d'autres paires de langues L1/L2.