Classification multi-classe et sélection de variables avec des données partiellement étiquetées

Vasilii Feofanov

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Classification multi-classe et sélection de variables avec des données partiellement étiquetées

FR |

EN

Auteur / Autrice :	Vasilii Feofanov
Direction :	Massih-Reza Amini
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques appliquées
Date :	Soutenance le 29/09/2021
Etablissement(s) :	Université Grenoble Alpes
Ecole(s) doctorale(s) :	École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique de Grenoble (Isère, France ; 2007-....)
	Equipe de recherche : Algorithms, principles and theories for collaborative knowledge acquisition and learning (Grenoble ; 2021-....)
	Financement : IDEX - IRS
Jury :	Président / Présidente : Anatoli Juditsky
	Examinateurs / Examinatrices : Mélina Gallopin, Laurent Besacier, Emilie Devijver
	Rapporteurs / Rapporteuses : Florence D'Alché-Buc, Pascal Germain

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage automatique

Mots clés libres

Classification

Sélection de variables

Apprentissage semi-Supervisé

Résumé

FR |

EN

L'apprentissage avec des données partiellement étiquetées, connu sous le nom d'apprentissage semi-supervisé, traite des problèmes où peu d'exemples de formation sont étiquetés alors que les données disponibles non étiquetées sont abondantes et précieuses pour la formation. Dans cette thèse, nous étudions ce cadre dans le cas de la classification multi-classes en mettant l'accent sur l'auto-apprentissage et la sélection de variables. L'auto-apprentissage est une approche classique qui attribue de manière itérative des pseudo-étiquettes à des exemples de formation non étiquetés avec un score de confiance supérieur à un seuil prédéterminé. Cette technique de pseudo-étiquetage est sujette aux erreurs et risque d'ajouter des étiquettes bruyantes dans des données d'apprentissage non étiquetées. Notre première contribution est de proposer un cadre théorique d'analyse de l'auto-apprentissage dans le cas multi-classes. Nous dérivons une borne transductive sur le risque du classificateur de vote majoritaire multi-classes et proposons d'utiliser cette borne pour choisir automatiquement le seuil de pseudo-étiquetage. Ensuite, nous introduisons un modèle d'erreur d'étiquetage pour analyser l'erreur du classificateur de vote majoritaire dans le cas des données pseudo-étiquetées. Nous dérivons une borne C probabiliste sur l'erreur de vote majoritaire étant donné une étiquette imparfaite. Notre deuxième contribution est une extension de la stratégie d'auto-apprentissage au cas où certains exemples non étiquetés proviennent de classes jamais vues auparavant. La nouvelle approche est appliquée pour la classification de données biologiques réelles, et elle est basée sur l'hypothèse de l'existence de clusters dans des données non étiquetées. Enfin, nous proposons une approche de sélection de variables semi-supervisée qui utilise l'auto-apprentissage pour augmenter la variété des données d'entraînement et une nouvelle modification de l'algorithme génétique pour effectuer une recherche de sous-ensembles de variables. L'algorithme génétique proposé produit à la fois une solution clairsemée et précise en tenant compte des pondérations des variables au cours de son processus évolutif et en supprimant de manière itérative les variables non pertinentes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Classification multi-classe et sélection de variables avec des données partiellement étiquetées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Classification multi-classe et sélection de variables avec des données partiellement étiquetées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses