L'apprentissage multivue avec vues manquantes et solutions d'apprentissage pour la modélisation inter-process dans l'industrie des semi-conducteurs
Auteur / Autrice : | Anastasiia Doinychko |
Direction : | Massih-Reza Amini |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques et informatique |
Date : | Soutenance le 06/02/2023 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de Grenoble |
Equipe de recherche : Algorithms, principles and theories for collaborative knowledge acquisition and learning (Grenoble) | |
Entreprise : Siemens Electronic Design Automation | |
Jury : | Président / Présidente : Georges Quénot |
Examinateurs / Examinatrices : Dominique Vaufreydaz, Marta Soare | |
Rapporteurs / Rapporteuses : Puneet Gupta, Gaël Dias |
Mots clés
Résumé
Le contrôle avancé des procédés (ou Advanced Process Control - APC en anglais) est une direction de recherche dans l'industrie de la fabrication de semi-conducteurs (ou Semiconductor Manufacturing - SM en anglais) engagée dans le développement de diagnostics de processus automobiles et de solutions de gestion de produits pour préserver un rendement élevé en fin de ligne et réduire le risque de défaillance de l'équipement. Dans cette thèse, nous nous concentrons sur l'étude des approches basées sur l'apprentissage machine (ou Machine Learning en ML) pour développer un cadre unifié pour l'analyse et la modélisation des processus à partir de données SM multi-vues très diverses (provenant de différentes sources). Les fonctionnalités multi-vues globales donnent une description plus complète d'un phénomène, et l'apprentissage multi-vues est généralement mieux adapté que l'apprentissage mono-vue (ou à vue unique), ce qui motive ce travail. L'un des principaux défis ouverts dans le domaine APC dans SM est la capacité à tirer parti de la richesse des informations pour caractériser pleinement le processus et déterminer la valeur des nouvelles métriques. Dans cette thèse, nous analysons les techniques de traitement de données existantes et nous exposons une stratégie qui consiste en des étapes de nettoyage des données, d'extraction des caractéristiques et de sélection de variables pour faire face aux imperfections des données;telles que le bruit, les étapes d'échantillonnage irrégulières dans les données de séries chronologiques sensorielles et les enregistrements incomplets, tous dus au taux d'erreur de corruption naturelle des outils d'enregistrement. Cette thèse vise également à élargir le champ de la modélisation des processus traditionnels en SM grâce à l'analyse inter-processus. La fabrication du produit est une procédure séquentielle d'application de processus ordonnés pour déposer de nouvelles couches de fonctionnalité qui permettent d'utiliser l'historique des précédents pour connaître son impact sur la cible de modélisation actuelle d'intérêt. Dans ce sens, nous proposons une méthodologie qui bénéficie non seulement de différents types de mesures, mais également des dépendances entre les différentes étapes du processus pour rendre les processus plus prévisibles et productifs.De plus, nous étudions le problème des données manquantes, principalement lorsqu'une des vues est manquante, ce qui est un autre défi ouvert dans le domaine de l'apprentissage. Certaines études abordent ce problème en supposant l'existence de fonctions de génération de vues pour compléter approximativement les vues manquantes. Cependant, ces fonctions nécessitent généralement une ressource externe pour être définies, et leur qualité impacte directement les performances du modèle prédictif final appris sur l'ensemble d'apprentissage terminé. Au lieu de cela, dans ce travail, nous proposons d'aborder ce problème en apprenant conjointement les vues manquantes et l'estimateur cible multi-vues en utilisant une approche d'apprentissage antagoniste inspirée par la capacité des réseaux antagonistes génératifs (ou Generative Adversarial Netwotks - GAN en anglais) à saisir la distribution sous-jacente des données et créer de nouveaux échantillons. Finalement, nous considérons les tâches APC telles que la métrologie virtuelle et la maintenance prédictive pour mener des expériences en utilisant les collections de données réelles fournies par les principales compagnies de fabrication de fabrication de semi-conducteurs en Europe avec lesquelles nous avons collaboré, dans le cadre du projet MADEin4'. De plus, étant donné que le problème des données manquantes dans les collections multi-vues est répandu dans différents ensembles de données au-delà de l'industrie SM, nous envisageons des expériences avec des ensembles de données similaires (par défis et nature des données), comme les collections de données multilingues et les données médicales.