Thèse soutenue

Apprentissage supervisé à partir des multiples annotateurs incertains
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Chirine Wolley
Direction : Mohamed Quafafou
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/12/2014
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : Ecole Doctorale Mathématiques et Informatique de Marseille (Marseille)
Jury : Président / Présidente : Thierry Artieres
Examinateurs / Examinatrices : Faicel Chamroukhi, Jean Sallantin
Rapporteurs / Rapporteuses : Younes Bennani, Philippe Leray

Résumé

FR  |  
EN

En apprentissage supervisé, obtenir les réels labels pour un ensemble de données peut être très fastidieux et long. Aujourd'hui, les récentes avancées d'Internet ont permis le développement de services d'annotations en ligne, faisant appel au crowdsourcing pour collecter facilement des labels. Néanmoins, le principal inconvénient de ces services réside dans le fait que les annotateurs peuvent avoir des niveaux d'expertise très hétérogènes. De telles données ne sont alors pas forcément fiables. Par conséquent, la gestion de l'incertitude des annotateurs est un élément clé pour l'apprentissage à partir de multiples annotateurs non experts. Dans cette thèse, nous proposons des algorithmes probabilistes qui traitent l'incertitude des annotateurs et la qualité des données durant la phase d'apprentissage. Trois modèles sont proposés: IGNORE permet de classer de nouvelles instances tout en évaluant les annotateurs en terme de performance d'annotation qui dépend de leur incertitude. X-IGNORE intègre la qualité des données en plus de l'incertitude des juges. En effet, X-IGNORE suppose que la performance des annotateurs dépend non seulement de leur incertitude mais aussi de la qualité des données qu'ils annotent. Enfin, ExpertS répond au problème de sélection d'annotateurs durant l'apprentissage. ExpertS élimine les annotateurs les moins performants, et se base ainsi uniquement sur les labels des bons annotateurs (experts) lors de l'étape d'apprentissage. De nombreuses expérimentations effectuées sur des données synthétiques et réelles montrent la performance et la stabilité de nos modèles par rapport à différents algorithmes de la littérature.