Apprentissage auto-supervisé informé de représentations du signal de parole
Auteur / Autrice : | Mohamed Salah Zaiem |
Direction : | Slim Essid, Titouan Parcollet |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, images, automatique et robotique |
Date : | Soutenance le 25/03/2024 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information |
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) | |
Jury : | Président / Présidente : Emmanuel Vincent |
Examinateurs / Examinatrices : Emmanuel Vincent, Anthony Larcher, Hung-yi Lee, Shinji Watanabe, Karen Livescu, Hervé Bredin | |
Rapporteur / Rapporteuse : Anthony Larcher, Hung-yi Lee |
Mots clés
Résumé
L'apprentissage des caractéristiques a été un des principaux moteurs des progrès de l'apprentissage automatique. L'apprentissage auto-supervisé est apparu dans ce contexte, permettant le traitement de données non étiquetées en vue d'une meilleure performance sur des tâches faiblement étiquetées. La première partie de mon travail de doctorat vise à motiver les choix dans les pipelines d'apprentissage auto-supervisé de la parole qui apprennent les représentations non supervisées. Dans cette thèse, je montre d'abord comment une fonction basée sur l'indépendance conditionnelle peut être utilisée pour sélectionner efficacement et de manière optimale des tâches de pré-entraînement adaptées à la meilleure performance sur une tâche cible. La deuxième partie de mon travail de doctorat étudie l'évaluation et l'utilisation de représentations auto-supervisées pré-entraînées. J'y explore d'abord la robustesse des benchmarks actuels d'auto-supervision de la parole aux changements dans les choix de modélisation en aval. Je propose, ensuite, de nouvelles approches d'entraînement en aval favorisant l'efficacité et la généralisation.