Semi-supervised multi-view learning : an application to image annotation and multi-lingual document classification
Auteur / Autrice : | Ali Fakeri Tabrizi |
Direction : | Patrick Gallinari |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2013 |
Etablissement(s) : | Paris 6 |
Partenaire(s) de recherche : | Laboratoire : LIP6 (1997-....) |
Jury : | Examinateurs / Examinatrices : Massih-Reza Amini |
Rapporteurs / Rapporteuses : Hervé Glotin, Georges Quénot |
Mots clés
Résumé
Dans cette thèse , nous présentons deux méthodes d'apprentissage Multi-vues. Dans une première approche , nous décrivons une stratégie de multi-vues auto-apprentissage qui apprends différents classifieurs de vote sur les différents points de vue. Les distributions de marge sur les données d'apprentissage vierge, obtenus avec chaque classifieur spécifique à la vue sont ensuite utilisées pour estimer une borne supérieure de leur erreur de Bayes transductive. Minimiser cette borne supérieure nous donne une marge de seuil automatique qui est utilisé pour attribuer des pseudo-labels à des exemples non étiquetés. Étiquettes pour les classes finales sont ensuite affectés à ces exemples, par un vote à l'ensemble de la précédente pseudo -labels. Nouveaux classifieurs vue spécifiques sont ensuite apprises à l'aide des données d'apprentissage pseudo- étiquetés et les données étiquetées l'original. Nous considérons applications à l'image-texte et la classification de documents multilingues. Dans la deuxième approche , nous proposons un modèle du ranking bipartite semi-supervisé multivues qui nous permet de tirer parti de l'information contenue dans ensembles non-étiquetées d'images pour améliorer les performances de prédiction , en utilisant plusieurs descriptions ou des vues d'images. Pour chaque catégorie de sujet , notre approche apprend d'abord autant rankers spécifique à la vue qu'il ya de vues disponibles en utilisant les données étiquetées seulement. Ces rankers sont ensuite améliorées itérativement en ajoutant paires d'exemples pseudo- étiquetés sur lesquels tous les rankers spécifiques à la vue sont d'accord sur le classement des exemples au sein de ces couples.