Classification multi-classe et sélection de variables avec des données partiellement étiquetées
Auteur / Autrice : | Vasilii Feofanov |
Direction : | Massih-Reza Amini |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 29/09/2021 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de Grenoble (2007-....) |
Equipe de recherche : Algorithms, principles and theories for collaborative knowledge acquisition and learning (Grenoble) | |
Financement : IDEX - IRS | |
Jury : | Président / Présidente : Anatoli Juditsky |
Examinateurs / Examinatrices : Mélina Gallopin, Laurent Besacier, Emilie Devijver | |
Rapporteur / Rapporteuse : Florence D'Alché-Buc, Pascal Germain |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
L'apprentissage avec des données partiellement étiquetées, connu sous le nom d'apprentissage semi-supervisé, traite des problèmes où peu d'exemples de formation sont étiquetés alors que les données disponibles non étiquetées sont abondantes et précieuses pour la formation. Dans cette thèse, nous étudions ce cadre dans le cas de la classification multi-classes en mettant l'accent sur l'auto-apprentissage et la sélection de variables. L'auto-apprentissage est une approche classique qui attribue de manière itérative des pseudo-étiquettes à des exemples de formation non étiquetés avec un score de confiance supérieur à un seuil prédéterminé. Cette technique de pseudo-étiquetage est sujette aux erreurs et risque d'ajouter des étiquettes bruyantes dans des données d'apprentissage non étiquetées. Notre première contribution est de proposer un cadre théorique d'analyse de l'auto-apprentissage dans le cas multi-classes. Nous dérivons une borne transductive sur le risque du classificateur de vote majoritaire multi-classes et proposons d'utiliser cette borne pour choisir automatiquement le seuil de pseudo-étiquetage. Ensuite, nous introduisons un modèle d'erreur d'étiquetage pour analyser l'erreur du classificateur de vote majoritaire dans le cas des données pseudo-étiquetées. Nous dérivons une borne C probabiliste sur l'erreur de vote majoritaire étant donné une étiquette imparfaite. Notre deuxième contribution est une extension de la stratégie d'auto-apprentissage au cas où certains exemples non étiquetés proviennent de classes jamais vues auparavant. La nouvelle approche est appliquée pour la classification de données biologiques réelles, et elle est basée sur l'hypothèse de l'existence de clusters dans des données non étiquetées. Enfin, nous proposons une approche de sélection de variables semi-supervisée qui utilise l'auto-apprentissage pour augmenter la variété des données d'entraînement et une nouvelle modification de l'algorithme génétique pour effectuer une recherche de sous-ensembles de variables. L'algorithme génétique proposé produit à la fois une solution clairsemée et précise en tenant compte des pondérations des variables au cours de son processus évolutif et en supprimant de manière itérative les variables non pertinentes.