Thèse en cours

Apprentissage multimodal de représentations profondes pour la détection d'évènements audio

FR  |  
EN
Auteur / Autrice : Hugo Malard
Direction : Slim Essid
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Inscription en doctorat le 01/11/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Equipe de recherche : S2A - Statistique et Apprentissage

Résumé

FR  |  
EN

Les travaux récents en apprentissage profond, tendent à montrer que l'utilisation de pré-entraînements permettent une meilleur qualité des représentations apprises, et donc de performances sur les tâches finales. Néanmoins, cette augmentation des performances s'accompagne généralement d'une hausse significative de la taille des modèles. Dans ce contexte, l'objectif de cette thèse est d'utiliser un ensemble de modalités afin de mener un pré-entraînement performant permettant une utilisation de modèles plus efficients, de tailles plus restreintes.