Transfert de représentations de caractéristiques entre les tâches et les domaines
Auteur / Autrice : | Ekaterina Iakovleva |
Direction : | Karteek Alahari |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques et informatique |
Date : | Soutenance le 07/12/2022 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann (Grenoble ; 2007-....) |
Equipe de recherche : Équipe-projet Apprentissage de modèles à partir de données massives (Montbonnot, Isère ; 2019-....) | |
Jury : | Président / Présidente : Massih-Reza Amini |
Examinateurs / Examinatrices : Matthieu Cord | |
Rapporteur / Rapporteuse : Joost Van de Weijer, David Picard |
Mots clés
Mots clés contrôlés
Résumé
Année après année, le progrès de l’apprentissage profond permet de résoudre un nombre croissant de tâches difficiles, ainsi que de se fixer de nouveaux objectifs encore plus ambitieux. Un tel succès, cependant, se fait au prix d’exigences croissantes pour tous les aspects de l’apprentissage : les modèles à grande échelle, qui ont tendance à être les plus performants, nécessitent de grandes quantités de données, de mémoire, de ressources de calcul et de temps d’entraînement. Ça peut poser problème en pratique, en particulier sur des petits ensembles de données. Cela motive l’exploration des moyens de transférer les connaissances, c’est-à-dire la valorisation des modèles existants pour résoudre de nouvelles tâches.Ce problème de transfert de connaissances a ses propres défis, tels que le type de connaissances à transférer ou la disponibilité des données. Dans cette thèse, nous nous concentrons sur deux configurations de cette catégorie : l’apprentissage avec très peu de données et l’apprentissage multi-domaines. Les deux problèmes partagent la motivation d’apprendre un modèle qui pourrait se généraliser à la résolution du même type de tâche, par ex. classification d’images, sur un certain nombre de domaines différents.Notre première contribution explore la modélisation probabiliste pour l’apprentissage avec très peu de données, où le modèle vise à résoudre un large éventail de tâches de classification, chacune accompagnée d’une poignée d’exemples étiquetés. Une supervision limitée conduit à une forte incertitude sur les prédictions, qui peut naturellement être résolue par un cadre probabiliste. Nous traitons le classificateur spécifique à une tâche comme une variable latente et proposons un nouveau schéma d’inférence variationnelle amortie qui utilise un seul réseau pour prédire les paramètres de la distribution à la fois pour le prior et pour le postérieur approximé de la variable latente dans le modèle graphique considéré. Nous évaluons notre modèle sur plusieurs benchmarks de classification, et montrons qu’il peut obtenir des résultats compétitifs sur chacun d’eux. Nous démontrons également les avantages de la modélisation de l’incertitude en montrant qu’un ensemble échantillonné de classificateurs améliore légèrement les performances par rapport à la moyenne déduite du classificateur. Ce résultat ne peut être atteint par des modèles reposant sur des approximations de Monte Carlo, qui, selon nos expérimentations, ont tendance à sous-estimer la vraie variance.Notre deuxième contribution propose un nouveau type de modules d’adaptation pour la classification multi-domaine, qui considère un ensemble fixe de tâches de classification sur un nombre limité de domaines. Nous adoptons l’approche commune consistant à utiliser un extracteur de caractéristiques pré-formé comme réseau de base et à l’adapter à de nouveaux domaines à l’aide d’adaptateurs spécifiques au domaine appliqués à chaque couche convolutive de la base. Pour chaque canal de sortie, notre adaptateur de modulation multiplie chaque noyau dans le tenseur de poids convolutif avec son propre scalaire spécifique à la sortie. Cela se traduit par un ensemble de pondérations indépendantes des cartes de caractéristiques d’entrée, ce qui rend l’adaptation des caractéristiques résultante plus flexible par rapport aux approches précédentes. Pour réduire le budget des paramètres, nous factorisons notre adaptateur de modulation comme un produit des deux plus petites matrices. Nous évaluons notre modèle sur les deux benchmarks et montrons que les versions complètes et factorisées obtiennent des résultats de pointe. En plus de cela, nous fournissons les résultats de notre modèle sur une gamme de budgets de paramètres, ce qui est l’un des avantages de notre approche. Pour chaque budget de paramètre, les adaptateurs de modulation surpassent les concurrents qui n’offrent généralement qu’un seul réglage de budget de paramètre.