L’apprentissage actif : une approche non biaisée
Auteur / Autrice : | Carlos Eduardo Ribeiro de Mello |
Direction : | Marie-Aude Aufaure |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 04/06/2013 |
Etablissement(s) : | Châtenay-Malabry, Ecole centrale de Paris en cotutelle avec Universidade federal do Rio de Janeiro |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'Ingénieur (Châtenay-Malabry, Hauts de Seine) |
Partenaire(s) de recherche : | Laboratoire : Mathématiques et informatique pour la complexité et les systèmes (Gif-sur-Yvette, Essonne ; 2006-....) |
Jury : | Président / Présidente : Nelson Maculan |
Examinateurs / Examinatrices : Marie-Aude Aufaure, Vincent Lemaire, Antônio Padua braga, Geraldo Zimbrao da silva, Carlos Eduardo Pedreira | |
Rapporteurs / Rapporteuses : Vincent Lemaire, Antônio Padua braga |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
L'apprentissage actif apparaît comme un problème important dans différents contextes de l'apprentissage supervisé pour lesquels obtenir des données est une tâche aisée mais les étiqueter est coûteux. En règle générale, c’est une stratégie de requête, une heuristique gloutonne basée sur un critère de sélection qui recherche les données non étiquetées potentiellement les plus intéressantes pour former ainsi un ensemble d'apprentissage. Une stratégie de requête est donc une procédure d'échantillonnage biaisée puisqu'elle favorise systématiquement certaines observations s'écartant ainsi des modèles d'échantillonnages indépendants et identiquement distribués. L'hypothèse principale de cette thèse s'inscrit dans la réduction du biais introduit par le critère de sélection. La proposition générale consiste à réduire le biais en sélectionnant le sous-ensemble minimal d'apprentissage pour lequel l'estimation de la loi de probabilité est aussi proche que possible de la loi sous-jacente prenant en compte l’intégralité des observations. Pour ce faire, une nouvelle stratégie générale de requête pour l'apprentissage actif a été mise au point utilisant la théorie de l'Information. Les performances de la stratégie de requête proposée ont été évaluées sur des données réelles et simulées. Les résultats obtenus confirment l'hypothèse sur le biais et montrent que l'approche envisagée améliore l'état de l'art sur différents jeux de données.