Thèse soutenue

Représentations vectorielles de phrases pour le traitement massivement multilingue du texte et de la parole

FR  |  
EN
Auteur / Autrice : Paul-Ambroise Duquenne
Direction : Benoît SagotHolger Schwenk
Type : Thèse de doctorat
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Soutenance le 14/03/2024
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Centre de recherche de Paris (Paris)
Jury : Président / Présidente : Laurent Besacier
Examinateurs / Examinatrices : Benjamin Piwowarski
Rapporteurs / Rapporteuses : Alexandra Birch, Ondřej Bojar

Résumé

FR  |  
EN

L'apprentissage de représentations mathématiques des phrases, sous forme textuelle, a été largement étudié en traitement automatique des langues (TAL). Alors que de nombreuses recherches ont exploré différentes fonctions d'objectif de pré-entraînement pour créer des représentations contextuelles des mots à partir des phrases, d'autres se sont concentrées sur l'apprentissage de représentations des phrases par des vecteurs uniques, ou représentations de taille fixe (par opposition à une séquence de vecteurs dont la longueur dépend de la longueur de la phrase), pour plusieurs langues. Le but étant d'encoder par des vecteurs proches entre eux les paraphrases et les traductions d'une même phrase. Dans cette thèse, nous étudions d'abord comment étendre ces espaces de représentations de phrases à la modalité de la parole afin de construire un espace de représentation de phrases multilingue pour la parole et le texte. Ensuite, nous explorons comment utiliser cet espace de représentation de phrase multilingue et multimodal pour de la recherche de similarité sémantique entre des phrases parlées et écrites à grande échelle. Ceci nous permet de créer automatiquement des alignements entre des phrases écrites et parlées dans différentes langues. Pour des seuils de similarité élevés dans l'espace de représentation, les phrases alignées peuvent être considérées comme des traductions. Si les alignements impliquent d'un côté des phrases écrites et de l'autre des phrases parlées, il s'agit alors de potentielles traductions parole-texte. Si les alignements impliquent des deux côtés des phrases parlées, il s'agit alors de potentielles traductions parole-parole. Pour valider la qualité des données collectées automatiquement, nous entraînons des modèles de traduction de la parole vers le texte et des modèles de traduction parole vers parole. Nous montrons qu'ajouter les données alignées automatiquement améliore significativement la qualité du modèle de traduction appris, démontrant la qualité des alignements et l'utilité des données automatiquement alignées. Ensuite, nous étudions comment décoder ces représentations vectorielles de phrases en texte ou parole dans différentes langues. Nous explorons plusieurs méthodes d'apprentissage de modèles décodeurs et analysons leur robustesse pour décoder des représentations de phrases de langues/modalités non observées pendant leur apprentissage, afin de quantifier leur capacité de généralisation et le transfert entre langues et entre modalités des capacités de décodage. Nous mettons en évidence que l'on peut atteindre des résultats de traduction d'une modalité à l'autre proches de systèmes appris de manière supervisée avec un mécanisme d'attention. La compatibilité des représentations parole/texte dans différentes langues permet ces très bonnes performances, malgré une représentation intermédiaire composée d'un seul vecteur. Enfin, nous montrons comment nous avons développé un nouvel espace de représentation de phrases pour la parole et le texte qui améliore l'état de l'art nommé SONAR, grâce aux enseignements tirés de nos travaux précédents. Nous étudions différentes fonctions d'objectif pour l'apprentissage de cet espace et nous analysons leur impact sur l'organisation de l'espace ainsi que sur les capacités de décodage des représentations. Nous montrons que ce nouvel espace de représentation de phrases améliore significativement l'état de l'art pour la recherche de similarité entre langues et entre modalités ainsi que les capacités de décodage de ces représentations. Ce nouvel espace couvre 200 langues écrites et 37 langues parlées. Il offre également des résultats en traduction du texte proche du système de traduction NLLB sur lequel il se base, et en traduction de la parole compétitifs avec le système supervisé Whisper. Nous présentons également SONAR EXPRESSIVE, qui introduit une représentation supplémentaire encodant des propriétés de la parole non sémantiques telles que la voix ou l'expressivité.