Étude des modèles multimodaux pour l'analyse automatique de documents
| Auteur / Autrice : | Adnan Ben mansour |
| Direction : | David Naccache |
| Type : | Projet de thèse |
| Discipline(s) : | Informatique |
| Date : | Inscription en doctorat le 01/09/2023 |
| Etablissement(s) : | Université Paris sciences et lettres |
| Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
| Partenaire(s) de recherche : | Laboratoire : DIENS - Département d'informatique de l'École normale supérieure |
| Equipe de recherche : SECURITY | |
| établissement opérateur d'inscription : Ecole normale supérieure |
Résumé
Cette thèse s'intéresse à l'utilisation de données multimodales, notamment image et texte, en intelligence artificielle. L'objectif est d'explorer les modèles d'apprentissage profond qui exploitent ces données multimodales et d'évaluer leur efficacité. Nous commencerons par examiner les architectures multimodales existantes, mettant en lumière leurs avantages et leurs limites. Notre recherche se concentrera sur la fusion et l'interaction entre les différentes modalités, en mettant en évidence les combinaisons image-texte, tout en restant ouverts à d'autres formes de multimodalité. Une partie substantielle de la thèse se concentrera sur l'impact de la multimodalité sur les paradigmes d'apprentissage. Nous chercherons à concevoir de nouvelles fonctions de coût adaptées aux données multimodales et à explorer de nouveaux paradigmes d'apprentissage exploitant pleinement cette richesse de données. En termes d'applications, cette thèse se concentrera sur l'analyse automatique de documents. Nous examinerons comment les modèles multimodaux peuvent améliorer l'extraction d'informations à partir de documents multimodaux, avec des implications pour l'indexation, la classification et la recherche sémantique. En somme, cette thèse contribuera à notre compréhension de l'utilisation des données multimodales en intelligence artificielle, tant du point de vue des architectures que des paradigmes d'apprentissage. De plus, elle illustrera le potentiel révolutionnaire de ces données dans des applications pratiques, en particulier dans l'analyse automatique de documents.