Thèse en cours

Générations Artistiques et Éditions Conditionnelles par Intelligence Artificielle

FR  |  
EN
Auteur / Autrice : Mathis Koroglu
Direction : Matthieu Cord
Type : Projet de thèse
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Inscription en doctorat le 17/03/2025
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Institut des Systèmes Intelligents et de Robotique

Résumé

FR  |  
EN

La synthèse de médias désigne l'utilisation de l'intelligence artificielle (IA) pour générer et manipuler des données, principalement afin d'automatiser la création de contenus (images, vidéos, audio). Les progrès technologiques dans ce domaine encouragent l'adoption des algorithmes d'IA dans l'industrie créative, révolutionnant ainsi les processus de création. Récemment, les algorithmes de conversion de texte en image ont connu des avancées spectaculaires et ont été rendus accessibles au grand public. Il est désormais possible de générer en quelques secondes une image correspondant précisément à une description textuelle, avec des implications considérables pour l'industrie créative. La vidéo constitue le support le plus polyvalent et efficace pour transmettre des informations. Par conséquent, la possibilité de créer une vidéo à partir d'un texte représenterait une étape supplémentaire dans la révolution créative portée par l'IA. Dans le cadre de cette thèse, nous travaillerons à développer des algorithmes de conversion de texte en vidéo destinés à des applications créatives. Notre consortium est composé d'Obvious, un trio d'artistes de renommée mondiale utilisant l'intelligence artificielle pour créer des œuvres artistiques fondées sur une solide recherche, ainsi que du MLIA, une équipe de l'Institut des Systèmes Intelligents et de Robotique (ISIR), acteur majeur en France dans le développement de l'apprentissage profond appliqué à la vision par ordinateur et au traitement du langage naturel. Cette combinaison unique d'un collectif artistique et d'un laboratoire académique est particulièrement adaptée à la recherche en vue d'applications créatives. Notre travail se concentrera sur quatre axes importants. Premièrement, nous visons à créer ou améliorer des bases de données qualitatives texte-vidéo. Actuellement, de telles bases n'existent pas, ce qui empêche la génération de vidéos haute définition cohérentes. Ensuite, nous aborderons la problématique complexe de la génération de vidéos impliquant des mouvements sophistiqués, tout en conservant une cohérence spatiale et temporelle à partir de textes. Cela constitue une hiérarchie de défis de difficulté croissante, allant de la création de vidéos simples (comme une voiture roulant en ligne droite) à celle de tutoriels vidéo présentant, par exemple, une recette de cuisine complexe. Pour cela, nous tirerons parti des progrès récents réalisés dans le domaine de la conversion texte-image, notamment grâce à l'émergence des modèles de diffusion et des architectures de type transformeur pour le traitement et la génération d'images et de vidéos. Nous travaillerons également à la mise à disposition de nos modèles à travers des interfaces spécifiquement conçues pour un usage créatif, en tenant soigneusement compte des besoins des artistes. Obvious s'appuiera sur son réseau d'artistes et d'acteurs de l'industrie créative pour tester ces interfaces et les fonctionnalités associées sur de réels projets. Enfin, pour que les algorithmes de conversion texte-vidéo soient réellement utiles à l'industrie créative, nous mettrons l'accent sur les besoins concrets des artistes et des créatifs. Nous envisageons notamment le développement de fonctionnalités telles que l'édition sans masque (modification directe d'un objet ou d'un sujet dans la vidéo générée par simple entrée textuelle), la personnalisation (intégration de soi-même ou d'un objet personnel aux concepts connus du modèle), ou encore la gestion de scénarios (division automatique d'un scénario complet en scènes distinctes).