Thèse en cours

Modèles Génératifs pour la Synthèse Guidée de Scènes 3D Complexes et Fonctionnelles

FR  |  
EN
Auteur / Autrice : Léopold Maillard
Direction : Maks Ovsjanikov
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Inscription en doctorat le 01/12/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : LIX - Laboratoire d'informatique

Résumé

FR  |  
EN

La synthèse automatique d'environnements 3D réalistes, et plus spécifiquement de scènes d'intérieur aménagées, reste aujourd'hui un problème de recherche ouvert présentant de multiples défis. Les domaines de la conception 3D, de la simulation assistée par ordinateur ou encore de l'architecture d'intérieur bénéficieraient directement d'un système capable de générer de nouvelles scènes diverses, réalistes et reproductibles dans le monde réel. En effet, les aménagements réels comportent des objets variés, pouvant interagir entre eux et aménagés dans l'espace selon des considérations complexes d'ergonomie, de fonctionnalité et de style. Une solution de synthèse de scène a donc pour principal objectif de rendre compte de ces nombreuses contraintes et relations tout en proposant une large variété dans ses générations. Un autre grand défi lié à ces technologies concerne la prise en compte de préférences utilisateurs pour la génération conditionnée de l'environnement cible. Dans ce contexte, et conjointement avec la mise à disposition de bases de données massives de scènes 3D annotées, des méthodes basées sur l'apprentissage automatique ont vu le jour et sont capables de générer des scènes visuellement plausibles. En revanche, la majorité de ces approches ne prennent que partiellement en compte les contraintes physiques s'exerçant entre les éléments en présence ainsi que les capacités fonctionnelles, d'ergonomie et d'interactivité de l'aménagement synthétisé, pourtant essentielles au sein d'un environnement réel. En outre, ces solutions se basent principalement sur un conditionnement relativement simple ne donnant que peu d'information sur les spécifications de la scène cible et n'offrant qu'une flexibilité limitée aux utilisateurs de ces composants. Afin de surmonter les limites des méthodes actuelles concernant le réalisme de l'agencement des éléments dans une scène, nos travaux adresseront la prise en compte de contraintes physiques entre les entités en interaction dans cette dernière, comme des objets ou des humains en mouvement. Le but sera d'assurer la validité de l'environnement et donc de prévenir d'éventuelles collisions ou pénétrations tout en rendant possible la disposition d'objets les uns sur les autres, leur rangement les uns dans les autres, etc. Un autre objectif majeur de cette thèse sera la prise en compte de signaux de conditionnement issus de multiples modalités, permettant de guider le processus de génération et d'en améliorer la contrôlabilité en y intégrant des interactions utilisateurs intuitives. Par exemple, une description en langage naturel pourrait apporter des indications sur le type de pièce à synthétiser et les principaux éléments devant y figurer, une image de riches informations sur le style et la disposition des entités, une activité humaine des détails sur les fonctionnalités attendues, etc. Un tel conditionnement aurait donc le potentiel d'améliorer la qualité des générations, tout en respectant des spécifications utilisateurs précises. Un axe de recherche essentiel, au croisement du conditionnement et de la validité de la génération, portera sur la prise en compte de spécifications et exigences fonctionnelles à respecter au sein de l'environnement synthétisé. Ce dernier pourra rendre possible la réalisation de certaines actions (par exemple regarder la télévision en position allongée) et interactions (par exemple entre humain et objet ou entre plusieurs humains), introduisant des critères d'ergonomie et d'accessibilité comme la circulation dans la scène, l'accessibilité et la visibilité des objets, l'occupation de l'espace, etc. Enfin, ce projet de recherche adressera la conception d'une architecture d'apprentissage profond implémentant les caractéristiques mentionnées. Des approches permettant l'aménagement de toutes les entités simultanément pourront être étudiées, prenant ainsi en compte un contexte global lors de l'intégration des différentes contraintes et conditionnements.