sélection des caractéristiques, codage parcimonieux et normalisation pour la classification d’images de matériaux
Auteur / Autrice : | Sixiang Xu |
Direction : | Alain Trémeau |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, Image, Vision |
Date : | Soutenance le 14/12/2021 |
Etablissement(s) : | Lyon |
Ecole(s) doctorale(s) : | École doctorale Sciences Ingénierie Santé (Saint-Etienne) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Hubert Curien (Saint-Etienne ; 1995-....) |
Jury : | Président / Présidente : Christophe Ducottet |
Examinateurs / Examinatrices : Nicolas Thome, Gabriela Csurka, Damien Muselet | |
Rapporteur / Rapporteuse : Maria Vanrell Martorell, Jochen Lang |
Résumé
La classification d'images, qui consiste à prédire une seule classe pour chaque image d'entrée, est un sujet central dans la communauté de la vision par ordinateur. Et comme l'une de ses tâches, la classification des matériaux à partir d'une image est un défi pour les humains mais aussi pour les systèmes informatiques car les matériaux peuvent avoir différentes apparences en fonction de leurs propriétés de surface, de la géométrie de l'éclairage, de la géométrie de visualisation, paramètres de l'appareil photo, etc.Au début, les premiers ensembles de données d'images de matériaux sont créés avec ces dépendances bien contrôlées et connues. Outre les images et leurs catégories, des informations sur les dépendances sont également fournies en tant que caractéristiques complémentaires. De nombreux travaux ont été proposés, qui atteignent des performances élevées sur la tâche de classification, mais leur généralité d'application dans le monde réel est limitée car seules quelques instances de matériaux représentent une catégorie matérielle et les dépendances doivent être mesurées à chaque fois.Ces dernières années, les nouveaux ensembles de données de matériaux ont tendance à être à grande échelle et sans aucune dépendance. Toutes les images sont prises dans l'environnement du monde réel, plutôt que dans la salle de laboratoire. Ces ensembles de données sont sans aucun doute plus difficiles que jamais pour la classification et mieux adaptés à une application réelle. De plus, une architecture révolutionnaire de classification d'images, Convolutional Neural Network (CNN), a émergé avec des performances élevées dans un ensemble de données d'images à grande échelle, comme ImageNet, qui est dédié à la classification d'objets dans le monde réel. Cette architecture permet une classification des matériaux dans le monde réel avec une grande précision.Cette thèse étudie comment implémenter de manière appropriée le CNN, qui est pré-formé par ImageNet, dans la tâche de classification des matériaux. Généralement, nous appelons ce processus l'apprentissage par transfert, car nous transférons les connaissances acquises dans ImageNet dans notre tâche.Dans ce but, nos deux approches sont rapportées. Ils fonctionnent tous sur l'agrégation des caractéristiques extraites par le CNN à une représentation plus puissante pour la classification, mais les deux sont de manière totalement différente. La première consiste à sélectionner des caractéristiques plus discriminantes parmi tous les candidats avec un critère, appelé score de confiance, montrant à quel point le classificateur est confiant dans sa prédiction. Nous supposons que les caractéristiques avec un score de confiance élevé sont plus discriminantes. Fisher vector est une approche d'agrégation de caractéristiques de pointe et notre seconde approche est inspirée de l'un de ses travaux antérieurs, qui améliore la représentation des vecteurs Fisher lorsqu'elle est appliquée aux caractéristiques de CNN. Avec quelques modifications, nous l'intégrons en tant que module dans le CNN et lui permettons, ainsi qu'à d'autres composants du CNN, d'être appris ensemble sous la supervision de la classification. Pour valider nos solutions, nous les testons sur plusieurs ensembles de données largement utilisés et les comparons avec des approches de pointe récentes, montrant leurs bonnes performances. Nous menons également des études d'ablation afin d'étudier comment nos solutions atteignent de bonnes performances.