Modèles et stratégies de génération d'images efficaces pour les industries intelligentes
Auteur / Autrice : | Chafic Abou Akar |
Direction : | Abdallah Makhoul, Elias Doumith |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 11/10/2024 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | École doctorale Sciences Physiques pour l'Ingénieur et Microtechniques (Besançon ; 1991-....) |
Partenaire(s) de recherche : | Laboratoire : FEMTO-ST : Franche-Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (Besançon) - Franche-Comté Électronique Mécanique- Thermique et Optique - Sciences et Technologies (UMR 6174) / FEMTO-ST |
établissement de préparation : Université de Franche-Comté (1971-2024) | |
Jury : | Président / Présidente : Cédric Wemmert |
Examinateurs / Examinatrices : Andre Luckow, Joe M. Tekli | |
Rapporteurs / Rapporteuses : Cédric Wemmert, Stéphane Chrétien |
Mots clés
Résumé
L'entraînement des robots intelligents embarquant des modèles d'Apprentissage Profond (AP), nécessite une très grande quantité de données réelles et annotées pour pouvoir optimiser leurs tâches au sein des usines. Cependant, ces données réelles sont très compliquées à collecter et la génération des données synthétiques pour entraîner ces robots semble être une bonne alternative. Par contre, malgré l'efficacité de cette solution, un écart non négligeable persiste entre les deux domaines réels et synthétiques. De plus, la spécificité industrielle soulève la nécessité d’explorer de nouvelles pratiques en synthèse d’image industrielle.Notre objectif dans cette thèse est d'étudier et de proposer un pipeline modulaire de génération de données synthétiques pour construire et maintenir des environnements complexes à grande échelle. Nous proposons SORDI.ai, un ensemble de données d'images riches réalistes et annotées. Nous avons comblé l'écart en améliorant les propriétés visuelles des modèles 3D et en enrichissant les scènes de simulation avec une randomisation de domaine (RD) structurée. Dans un second temps, nous avons montré l'importance d'utiliser des données multi-domaines pour améliorer la généralisation des modèles d'apprentissage et surtout quand la quantité de données réelles est faible. De plus, comme pour les composants RD structurées, nous discutons la capacité de l'ingénierie de prompt à garantir la variabilité structurée des images générées par l'IA. Nous proposons une stratégie multi-sources pour utiliser les données de simulation et générées par l’IA simultanément pour s'approcher de la précision maximale lors d'un entraînement avec des données synthétiques seulement. Ensuite, nous présentons et étudions les méthodes, applications et modes d’IA générative, permettant de préserver les caractéristiques fines d’images complexes.Nous appliquons un entraînement conditionnel après avoir transformé l'ensemble de données complexe et encombré en un ensemble de données d'images plus grand mais plus simple. Pour conclure, on tire les meilleures pratiques en matière de génération de données synthétiques industrielles.