Thèse soutenue

L'apprentissage multivue avec vues manquantes et solutions d'apprentissage pour la modélisation inter-process dans l'industrie des semi-conducteurs

FR  |  
EN
Auteur / Autrice : Anastasiia Doinychko
Direction : Massih-Reza Amini
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 06/02/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Equipe de recherche : Algorithms, principles and theories for collaborative knowledge acquisition and learning (Grenoble)
Entreprise : Siemens Electronic Design Automation
Jury : Président / Présidente : Georges Quénot
Examinateurs / Examinatrices : Dominique Vaufreydaz, Marta Soare
Rapporteurs / Rapporteuses : Puneet Gupta, Gaël Dias

Résumé

FR  |  
EN

Le contrôle avancé des procédés (ou Advanced Process Control - APC en anglais) est une direction de recherche dans l'industrie de la fabrication de semi-conducteurs (ou Semiconductor Manufacturing - SM en anglais) engagée dans le développement de diagnostics de processus automobiles et de solutions de gestion de produits pour préserver un rendement élevé en fin de ligne et réduire le risque de défaillance de l'équipement. Dans cette thèse, nous nous concentrons sur l'étude des approches basées sur l'apprentissage machine (ou Machine Learning en ML) pour développer un cadre unifié pour l'analyse et la modélisation des processus à partir de données SM multi-vues très diverses (provenant de différentes sources). Les fonctionnalités multi-vues globales donnent une description plus complète d'un phénomène, et l'apprentissage multi-vues est généralement mieux adapté que l'apprentissage mono-vue (ou à vue unique), ce qui motive ce travail. L'un des principaux défis ouverts dans le domaine APC dans SM est la capacité à tirer parti de la richesse des informations pour caractériser pleinement le processus et déterminer la valeur des nouvelles métriques. Dans cette thèse, nous analysons les techniques de traitement de données existantes et nous exposons une stratégie qui consiste en des étapes de nettoyage des données, d'extraction des caractéristiques et de sélection de variables pour faire face aux imperfections des données;telles que le bruit, les étapes d'échantillonnage irrégulières dans les données de séries chronologiques sensorielles et les enregistrements incomplets, tous dus au taux d'erreur de corruption naturelle des outils d'enregistrement. Cette thèse vise également à élargir le champ de la modélisation des processus traditionnels en SM grâce à l'analyse inter-processus. La fabrication du produit est une procédure séquentielle d'application de processus ordonnés pour déposer de nouvelles couches de fonctionnalité qui permettent d'utiliser l'historique des précédents pour connaître son impact sur la cible de modélisation actuelle d'intérêt. Dans ce sens, nous proposons une méthodologie qui bénéficie non seulement de différents types de mesures, mais également des dépendances entre les différentes étapes du processus pour rendre les processus plus prévisibles et productifs.De plus, nous étudions le problème des données manquantes, principalement lorsqu'une des vues est manquante, ce qui est un autre défi ouvert dans le domaine de l'apprentissage. Certaines études abordent ce problème en supposant l'existence de fonctions de génération de vues pour compléter approximativement les vues manquantes. Cependant, ces fonctions nécessitent généralement une ressource externe pour être définies, et leur qualité impacte directement les performances du modèle prédictif final appris sur l'ensemble d'apprentissage terminé. Au lieu de cela, dans ce travail, nous proposons d'aborder ce problème en apprenant conjointement les vues manquantes et l'estimateur cible multi-vues en utilisant une approche d'apprentissage antagoniste inspirée par la capacité des réseaux antagonistes génératifs (ou Generative Adversarial Netwotks - GAN en anglais) à saisir la distribution sous-jacente des données et créer de nouveaux échantillons. Finalement, nous considérons les tâches APC telles que la métrologie virtuelle et la maintenance prédictive pour mener des expériences en utilisant les collections de données réelles fournies par les principales compagnies de fabrication de fabrication de semi-conducteurs en Europe avec lesquelles nous avons collaboré, dans le cadre du projet MADEin4'. De plus, étant donné que le problème des données manquantes dans les collections multi-vues est répandu dans différents ensembles de données au-delà de l'industrie SM, nous envisageons des expériences avec des ensembles de données similaires (par défis et nature des données), comme les collections de données multilingues et les données médicales.