Apprentissage frugal de modèles génératifs multimodaux pour la gestion de connaissances en contexte industriel à partir de données spécifiques
| Auteur / Autrice : | Rayen Ben masseoud |
| Direction : | Faïcel Chamroukhi |
| Type : | Projet de thèse |
| Discipline(s) : | Informatique |
| Date : | Inscription en doctorat le 05/01/2026 |
| Etablissement(s) : | université Paris-Saclay |
| Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
| Partenaire(s) de recherche : | Laboratoire : Institut de Recherche Technologique SystemX |
| Référent : Faculté des sciences d'Orsay |
Mots clés
Résumé
Cette thèse porte sur l'apprentissage de modèles génératifs à partir de données multimodales telles que le texte, les séries temporelles, les données tabulaires et les schémas techniques. Ces données hétérogènes, complexes et souvent peu annotées, posent des défis importants en matière de représentation commune, de généralisation et de frugalité computationnelle. L'objectif est de concevoir des modèles génératifs probabilistes multimodaux, compacts et interprétables, capables d'apprendre des représentations éventuellement partagées entre plusieurs modalités et de générer des données synthétiques cohérentes, notamment dans des situations rares ou peu observées. Les travaux étudieront l'adaptation de modèles de fondation multimodaux (par exemple les LLM pour le texte et les séries temporelles, et les VLM pour le texte et les schémas techniques) à des contextes contraints, via des stratégies d'apprentissage frugal. La thèse s'appuie sur des architectures à mélanges d'experts afin de favoriser la spécialisation des modalités tout en limitant le coût de calcul, ainsi que sur des mécanismes visant à prévenir l'effondrement des représentations. Les contributions seront évaluées sur des cas d'étude impliquant la génération de séries temporelles, la production de descriptions multimodales et l'analyse de documents techniques.