Thèse soutenue

L’apprentissage actif : une approche non biaisée

FR  |  
EN
Auteur / Autrice : Carlos Eduardo Ribeiro de Mello
Direction : Marie-Aude Aufaure
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/06/2013
Etablissement(s) : Châtenay-Malabry, Ecole centrale de Paris en cotutelle avec Universidade federal do Rio de Janeiro
Ecole(s) doctorale(s) : École doctorale Sciences pour l'Ingénieur (Châtenay-Malabry, Hauts de Seine)
Partenaire(s) de recherche : Laboratoire : Mathématiques et informatique pour la complexité et les systèmes (Gif-sur-Yvette, Essonne ; 2006-....)
Jury : Président / Présidente : Nelson Maculan
Examinateurs / Examinatrices : Marie-Aude Aufaure, Vincent Lemaire, Antônio Padua braga, Geraldo Zimbrao da silva, Carlos Eduardo Pedreira
Rapporteurs / Rapporteuses : Vincent Lemaire, Antônio Padua braga

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L'apprentissage actif apparaît comme un problème important dans différents contextes de l'apprentissage supervisé pour lesquels obtenir des données est une tâche aisée mais les étiqueter est coûteux. En règle générale, c’est une stratégie de requête, une heuristique gloutonne basée sur un critère de sélection qui recherche les données non étiquetées potentiellement les plus intéressantes pour former ainsi un ensemble d'apprentissage. Une stratégie de requête est donc une procédure d'échantillonnage biaisée puisqu'elle favorise systématiquement certaines observations s'écartant ainsi des modèles d'échantillonnages indépendants et identiquement distribués. L'hypothèse principale de cette thèse s'inscrit dans la réduction du biais introduit par le critère de sélection. La proposition générale consiste à réduire le biais en sélectionnant le sous-ensemble minimal d'apprentissage pour lequel l'estimation de la loi de probabilité est aussi proche que possible de la loi sous-jacente prenant en compte l’intégralité des observations. Pour ce faire, une nouvelle stratégie générale de requête pour l'apprentissage actif a été mise au point utilisant la théorie de l'Information. Les performances de la stratégie de requête proposée ont été évaluées sur des données réelles et simulées. Les résultats obtenus confirment l'hypothèse sur le biais et montrent que l'approche envisagée améliore l'état de l'art sur différents jeux de données.