Thèse soutenue

Apprentissage automatique multimodal : complémentarité des contextes textuels et visuels

FR  |  
EN
Auteur / Autrice : Éloi Zablocki
Direction : Patrick GallinariBenjamin Piwowarski
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/10/2019
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : LIP6 (1997-....)
Jury : Président / Présidente : Xavier Tannier
Examinateurs / Examinatrices : Antoine Bordes
Rapporteurs / Rapporteuses : Guillaume Gravier, Marie-Francine Moens

Résumé

FR  |  
EN

L'interaction entre le langage et la vision reste relativement peu explorée malgré un intérêt grandissant. Au-delà des différences triviales entre textes et images, ces deux modalités portent des sémantiques distinctes. D'une part, le langage peut exprimer une sémantique de haut niveau sur le monde, mais il est biaisé dans le sens qu’une grande partie de son contenu est implicite (sens commun). D'autre part, les images sont des agrégats de niveaux inférieurs informations, mais elles donnent accès plus directement aux statistiques du monde réel et peuvent être utilisées pour ancrer l'apprentissage de la sémantique d'un objet. Dans cette thèse, nous exploitons les connexions et nous tirons parti de la complémentarité entre langage et vision. Premièrement, les capacités de compréhension du langage naturel peuvent être améliorer à l'aide de la modalité visuelle, car le langage est naturellement ancré dans le monde visuel. En particulier, représenter la sémantique d'un mot est un problème de longue date pour la communauté du traitement de la langue naturel, et, pour améliorer les approches traditionnelles, il est essentiel de tirer parti des informations visuelles. Nous montrons que les représentations linguistiques peuvent être enrichies par des informations visuelles et nous nous concentrons particulièrement sur les contextes visuels et l'organisation spatiale des scènes. Nous présentons deux modèles pour apprendre des représentations multimodales sémantiques pour des mots ou des phrases, à l’aide d’images. A l'inverse, l'intégration du langage à la vision ouvre la possibilité d'élargir les horizons et les tâches de la communauté de la vision par ordinateur. En supposant que le langage contienne des informations visuelles sur les objets et que celles-ci puissent être capturées dans une représentation sémantique, nous nous concentrons sur la tâche de reconnaissance zero-shot, qui consiste à reconnaître des objets qui n'ont jamais été vus grâce aux connaissances linguistiques acquises auparavant. En particulier, nous montrons que les représentations linguistiques contiennent non seulement des informations visuelles sur l'apparence visuelle des objets, mais également sur leur environnement visuel typique et leurs fréquences d'occurrence visuelle. Nous présentons ainsi un modèle de reconnaissance zero-shot tirant parti du contexte visuel d'un objet et de sa probabilité d'occurrence visuelle, en plus de la région d'intérêt, comme dans les approches traditionnelles. Enfin, nous présentons des pistes de recherche potentielles pour exploiter davantage les liens entre langage et images et pour mieux comprendre le fossé sémantique entre les deux modalités.