Thèse soutenue

Evaluation et utilisation efficace des capacités de généralisation des modèles multimodaux

FR  |  
EN
Auteur / Autrice : Romain Bielawski
Direction : Rufin VanRullenTim Van de Cruys
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 05/12/2022
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Centre de recherche Cerveau et Cognition (Toulouse ; 1993-....)
Jury : Président / Présidente : Justine Cassell
Rapporteurs / Rapporteuses : Emmanuel Dellandréa, Elisabeth André

Résumé

FR  |  
EN

À mesure que de plus grands ensembles de données multimodaux deviennent disponibles sur le Web, la possibilité de développer de meilleurs modèles multimodaux, plus humains, augmente. Mon objectif de recherche est d'évaluer ce que la multimodalité apporte à la représentation des données par les machines, notamment lorsqu'il s'agit de généraliser dans une ou deux modalités (image et/ou texte), ainsi que de trouver des moyens d'améliorer la qualité de l'espace latent des algorithmes mutlimodaux. De plus grands ensembles de données et une plus grande puissance de calcul permettent certes de développer de meilleurs algorithmes, mais dans ce projet, je vise à utiliser le moins de données possible, avec le moins d'annotations possible, pour améliorer la représentation multimodale d'algorithmes préentraînés. De grands progrès ont été faits en ce qui concerne la disponibilité des ensembles de données multimodaux, principalement en raison de la possibilité d'extraire des informations à partir de données volumineuses, non structurées, sur le Web. Les réseaux attentionnels, conçus à l'origine uniquement pour le texte, ont fait leurs preuves dans leur capacité à fusionner les données. Plus récemment, l'objectif d'apprentissage contrastif appliqué sur des centaines de millions d'images annotées a fourni des résultats SOTA. Cependant, les méthodes et les évaluations standards dans le domaine multimodal présentent deux lacunes : Les capacités de généralisation des modèles formés de manière multimodale restent à déterminer, et il n'existe aucun moyen de calcul bon marché, à la fois en termes de données et de puissance, pour améliorer ou exploiter les capacités des espaces latents de ces algorithmes sur des tâches telles que la description d'images. Dans cette thèse, la première lacune est abordée par nos tâches d'évaluation, qui peuvent être appliquées à d'autres réseaux afin de comparer la capacité de généralisation de n'importe quel modèle d'image et/ou de texte. Une partie du deuxième problème est traitée à l'aide de notre CycleGAN Latent (Latent CycleGAN), qui est très rentable et qui améliore une méthode de description plus simple avec des données multimodales non-appairées.