Thèse en cours

Transformers efficaces pour la reconnaissance visuelle.

FR  |  
EN
Auteur / Autrice : Imad eddine Marouf
Direction : Stéphane LathuiliereEnzo Tartaglione
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Inscription en doctorat le 17/10/2022
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire de Traitement et Communication de l'Information
Equipe de recherche : MM : MultiMédia

Résumé

FR  |  
EN

Ces dernières années, les réseaux de neurones profonds ont permis de réaliser des progrès considérables dans le domaine de la compréhension des scènes visuelles, ce qui a conduit à des résultats remarquables dans des tâches telles que la reconnaissance d'objets, la segmentation d'instances, l'estimation de la profondeur, et beaucoup plus. Ces progrès peuvent être attribués non seulement à la grande disponibilité d'ensembles de données, mais aussi à la conception d'architectures profondes spécialisées, qui nécessitent de puissantes ressources de calcul. Alors que les architectures basées sur des couches convolutionnelles sont utilisées dans la plupart des méthodes, ces dernières années nous avons assisté au développement d'architectures basées sur les “Transformers” [1,2,3,8,9,10,11]. Les transformers adoptent le mécanisme d'auto-attention, qui apprend la représentation d'image en pondérant l'importance de chaque partie des données, d'une manière différentiable. Si les transformers ont amélioré de manière significative les performances des modèles profonds sur plusieurs tâches, leur développement soulève trois questions principales : Contrairement aux réseaux de neurones convolutionnels, les transformers n'utilisent pas la nature 2D des images dans leur conception. Par conséquent, pour apprendre des représentations d'images riches, ils ont besoin de grands ensembles d'entraînement à compensation de leur grande flexibilité. Une solution à ce problème consiste à utiliser des modèles pré-entraînés sur un grand ensemble de données afin de transférer à la tâche cible leurs connaissances acquises. Le transfert de connaissances peut être réalisé à l'aide d'une simple stratégie de “finetuning” des paramètres, mais des solutions plus efficaces en termes de données peuvent être conçues spécifiquement pour les transformers. Les transformers souffrent de coûts de calcul élevés, tant pour l'entraînement que pour le test. Alors que des stratégies de sparsification ont été proposées avec succès pour les architectures convolutionnelles, le cas des transformers reste largement inexploré. Le nombre élevé de paramètres rend les transformers difficiles à interpréter. Dans de nombreuses applications, l'utilisateur a besoin d'algorithmes plus interpretables que des boîtes noires afin de comprendre les caractéristiques utilisées par le réseau pour la prédiction.