Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

Mohamed-Rafik Bouguelia

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

FR |

EN

Auteur / Autrice :	Mohamed-Rafik Bouguelia
Direction :	Abdelwaheb Belaïd
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 25/03/2015
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury :	Président / Présidente : Rolf Ingold
	Examinateurs / Examinatrices : Yolande Belaïd, Thierry Paquet
	Rapporteur / Rapporteuse : Laurence Likforman-Sulem, Robert Sabourin

Mots clés

FR |

EN

Mots clés contrôlés

Incertitude (théorie de l'information)

Étiquetage

Systèmes adaptatifs (technologie)

Classification

Apprentissage automatique

Mots clés libres

Classification

Apprentissage actif

Flux de données

Détection de nouveautés

Erreurs d’étiquetage

Résumé

FR |

EN

Cette thèse traite de l’apprentissage automatique pour la classification de données. Afin de réduire le coût de l’étiquetage, l’apprentissage actif permet de formuler des requêtes pour demander à un opérateur d’étiqueter seulement quelques données choisies selon un critère d’importance. Nous proposons une nouvelle mesure d’incertitude qui permet de caractériser l’importance des données et qui améliore les performances de l’apprentissage actif par rapport aux mesures existantes. Cette mesure détermine le plus petit poids nécessaire à associer à une nouvelle donnée pour que le classifieur change sa prédiction concernant cette donnée. Nous intégrons ensuite le fait que les données à traiter arrivent en continu dans un flux de longueur infinie. Nous proposons alors un seuil d’incertitude adaptatif qui convient pour un apprentissage actif à partir d’un flux de données et qui réalise un compromis entre le nombre d’erreurs de classification et le nombre d’étiquettes de classes demandées. Les méthodes existantes d’apprentissage actif à partir de flux de données, sont initialisées avec quelques données étiquetées qui couvrent toutes les classes possibles. Cependant, dans de nombreuses applications, la nature évolutive du flux fait que de nouvelles classes peuvent apparaître à tout moment. Nous proposons une méthode efficace de détection active de nouvelles classes dans un flux de données multi-classes. Cette méthode détermine de façon incrémentale une zone couverte par les classes connues, et détecte les données qui sont extérieures à cette zone et proches entre elles, comme étant de nouvelles classes. Enfin, il est souvent difficile d’obtenir un étiquetage totalement fiable car l’opérateur humain est sujet à des erreurs d’étiquetage qui réduisent les performances du classifieur appris. Cette problématique a été résolue par l’introduction d’une mesure qui reflète le degré de désaccord entre la classe donnée manuellement et la classe prédite et une nouvelle mesure d’''informativité'' permettant d’exprimer la nécessité pour une donnée mal étiquetée d’être réétiquetée par un opérateur alternatif

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses