Unsupervised Learning of Data Representations and Cluster Structures : Applications to Large-scale Health Monitoring of Turbofan Aircraft Engines

Florent Forest

Résumé

This thesis is interested in unsupervised statistical learning methods and their applications to health monitoring of aircraft engines at an industrial scale. Our first objective is to make health monitoring methodologies scale to massive data sets and allow engineering team to flexibly deploy various use cases. Besides the engineering aspects, we also try to address two fundamental theoretical challenges in unsupervised learning. First, the links between cluster structure and representation. And second, the very definition of structure, arising from the problem of model selection in clustering. Modern aircraft engines generate growing amounts of data during manufacturing, tests and flights, that can be leveraged for health monitoring and predictive main- tenance, in order to improve safety, availability and reduce costs. In this work, we use sensor measurements collected on board of civil short and mid-range aircraft. These data sets are temporal and highly multidimensional due to the large number of sensors and sampling frequencies. Hence, applications need to scale to the large volumes of data, driven by the growing number of daily operating engines.Among all unsupervised learning approaches, clustering and self-organizing maps (SOM) provide useful insights on the distribution of complex and high-dimensional unlabeled data sets. To describe the internal state of an engine, expert indicators or features need to be extracted from raw data, before applying clustering algorithms. Our first contribution is to scale these methodologies using Big Data tools and distributed computing, in order to process entire fleets. We propose a generic and scalable pipeline enabling engineers to analyze flight data on a cluster. In addition, we present an new application to monitoring of vibration signatures.Another option is to automatically extract relevant features with deep neural net- works, known as deep learning, which had a great impact in many areas of machine learning. Recently, its ability to improve clustering has been investigated. A second contribution of this thesis is a Deep Embedded SOM, a neural network-based model performing joint representation learning with an autoencoder and self-organization of the cluster prototypes. The third contribution of this thesis concerns model selection, which is perhaps the most difficult problem in clustering. We adopt the framework of cluster stability analysis, and propose a novel concept of within-cluster stability, leading to a criterion called Stadion (stability difference criterion) able to effectively select the number of clusters in a data set. We also apply Stadion to time series clustering validation by leveraging invariant transformations of the data.Keywords: unsupervised learning; clustering; self-organizing maps; deep learning; time series; cluster stability analysis; big data processing; aircraft engines; healthmonitoring of industrial assets

Cette thèse porte sur des méthodes d’apprentissage statistique non supervisées et leurs applications à la surveillance de santé (health monitoring) des moteurs d’avion à une échelle industrielle. Notre premier objectif est de faire passer les méthodologies de health monitoring à l’échelle de jeux de données massifs et de permettre aux ingénieurs de déployer de manière agile divers cas d’utilisation. Outre les aspects d’ingénierie, nous aborderons également deux défis théoriques fondamentaux en apprentissage non supervisé. Premièrement, les liens entre structure de partitionnement et représentation. Et deuxièmement, la définition même de la structure, découlant du problème de sélection du modèle en partitionnement de données(clustering). Aujourd’hui, les moteurs d’avion génèrent des quantités croissantes de données au cours de leur fabrication, des essais et des vols, pouvant être exploitées pour la surveillance et la maintenance prédictive, afin d’améliorer la sécurité, la disponibilité et de réduire les coûts. Dans ce travail, nous utiliserons des mesures de capteurs embarqués à bord d’avions civils court et moyen courrier. Ces jeux de données sont temporels et hautement multidimensionnels en raison du nombre de capteurs et leur fréquences d’échantillonnage. Par conséquent, les applications doivent s’adapter aux grands volumes de données qui ne cessent de croître avec la hausse du trafic aérien. Parmi les approches d’apprentissage non supervisées, le clustering et les cartes auto-organisées (SOM) fournissent des informations utiles sur la distribution de jeux de données non étiquetés complexes et en grande dimension. Pour décrire l’état interne d’un moteur, des indicateurs experts doivent être extraits des données brutes, avant d’appliquer des algorithmes de clustering. Notre première contribution est de faire passer à l’échelle ces méthodologies via les outils du Big Data et le calcul distribué, afin de traiter des flottes entières. Nous proposons une chaîne de traitement générique permettant aux ingénieurs d’analyser les données de vol stockées sur un cluster. En outre, nous présentons une application à la surveillance de signatures vibratoires. U des caractéristiques pertinentes à l’aide de réseaux de neurones profonds. Cette approcha a bouleversé de nombreux domaines de l’apprentissage automatique ces dernières années. Récemment, sa capacité à améliorer le clustering a été étudiée. Une deuxième contribution de cette thèse est un modèle SOM profond(Deep Embedded SOM), basé sur des réseaux neurones combinant l’apprentissage de représentations via un auto-encodeur et l’auto-organisation des prototypes. La troisième contribution de cette thèse concerne la sélection de modèle, l’un des problèmes les plus ardus en clustering. Nous adoptons le cadre de l’analyse de stabilité, et proposons un nouveau concept de stabilité intra-cluster, conduisant à un critère appelé Stadion (critère de différence de stabilité) capable de sélectionner efficacement le nombre de clusters dans un jeu de données. Nous appliquerons également Stadion à la validation du clustering de séries temporelles en tirant parti des transformations invariantes des données. Mots-clés : apprentissage non supervisé ; partitionnement ; cartes auto-organisatrices ; apprentissage profond ; séries temporelles ; analyse de stabilité ; traitement de données massives ; moteurs d’avion ; surveillance de santé de systèmes industriels.

Unsupervised Learning of Data Representations and Cluster Structures : Applications to Large-scale Health Monitoring of Turbofan Aircraft Engines

Apprentissage non supervisé de représentations de données et structures de partitionnement : applications à la surveillance à grande échelle de turbofans

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager