Apprentissage multimodal de représentations profondes pour la détection d'évènements audio
FR |
EN
Auteur / Autrice : | Hugo Malard |
Direction : | Slim Essid |
Type : | Projet de thèse |
Discipline(s) : | Informatique, données, IA |
Date : | Inscription en doctorat le 01/11/2023 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) |
Equipe de recherche : S2A - Statistique et Apprentissage |
Mots clés
FR |
EN
Résumé
FR |
EN
Les travaux récents en apprentissage profond, tendent à montrer que l'utilisation de pré-entraînements permettent une meilleur qualité des représentations apprises, et donc de performances sur les tâches finales. Néanmoins, cette augmentation des performances s'accompagne généralement d'une hausse significative de la taille des modèles. Dans ce contexte, l'objectif de cette thèse est d'utiliser un ensemble de modalités afin de mener un pré-entraînement performant permettant une utilisation de modèles plus efficients, de tailles plus restreintes.