Thèse soutenue

Modèles et stratégies de génération d'images efficaces pour les industries intelligentes

FR  |  
EN
Auteur / Autrice : Chafic Abou Akar
Direction : Abdallah MakhoulElias Doumith
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/10/2024
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Sciences Physiques pour l'Ingénieur et Microtechniques (Besançon ; 1991-....)
Partenaire(s) de recherche : Laboratoire : FEMTO-ST : Franche-Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (Besançon) - Franche-Comté Électronique Mécanique- Thermique et Optique - Sciences et Technologies (UMR 6174) / FEMTO-ST
établissement de préparation : Université de Franche-Comté (1971-2024)
Jury : Président / Présidente : Cédric Wemmert
Examinateurs / Examinatrices : Andre Luckow, Joe M. Tekli
Rapporteurs / Rapporteuses : Cédric Wemmert, Stéphane Chrétien

Résumé

FR  |  
EN

L'entraînement des robots intelligents embarquant des modèles d'Apprentissage Profond (AP), nécessite une très grande quantité de données réelles et annotées pour pouvoir optimiser leurs tâches au sein des usines. Cependant, ces données réelles sont très compliquées à collecter et la génération des données synthétiques pour entraîner ces robots semble être une bonne alternative. Par contre, malgré l'efficacité de cette solution, un écart non négligeable persiste entre les deux domaines réels et synthétiques. De plus, la spécificité industrielle soulève la nécessité d’explorer de nouvelles pratiques en synthèse d’image industrielle.Notre objectif dans cette thèse est d'étudier et de proposer un pipeline modulaire de génération de données synthétiques pour construire et maintenir des environnements complexes à grande échelle. Nous proposons SORDI.ai, un ensemble de données d'images riches réalistes et annotées. Nous avons comblé l'écart en améliorant les propriétés visuelles des modèles 3D et en enrichissant les scènes de simulation avec une randomisation de domaine (RD) structurée. Dans un second temps, nous avons montré l'importance d'utiliser des données multi-domaines pour améliorer la généralisation des modèles d'apprentissage et surtout quand la quantité de données réelles est faible. De plus, comme pour les composants RD structurées, nous discutons la capacité de l'ingénierie de prompt à garantir la variabilité structurée des images générées par l'IA. Nous proposons une stratégie multi-sources pour utiliser les données de simulation et générées par l’IA simultanément pour s'approcher de la précision maximale lors d'un entraînement avec des données synthétiques seulement. Ensuite, nous présentons et étudions les méthodes, applications et modes d’IA générative, permettant de préserver les caractéristiques fines d’images complexes.Nous appliquons un entraînement conditionnel après avoir transformé l'ensemble de données complexe et encombré en un ensemble de données d'images plus grand mais plus simple. Pour conclure, on tire les meilleures pratiques en matière de génération de données synthétiques industrielles.