Thèse soutenue

Apprentissage de représentation pour la classification large échelle
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Thomas Gerald
Direction : Patrick Gallinari
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/11/2020
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : LIP6 (1997-....)
Jury : Président / Présidente : Massih-Reza Amini
Examinateurs / Examinatrices : Nicolas Baskiotis, Julien Tierny, Xiangliang Zhang
Rapporteurs / Rapporteuses : Massih-Reza Amini, Pascale Kuntz-Cosperec

Résumé

FR  |  
EN

Ces précédentes décennies ont vu l'essor des nouvelles technologies simplifiant le partage de l'information. Aujourd'hui, une importante part des données est accessible pour un grand nombre d'utilisateurs. Dans cette thèse, nous proposons d'étudier les problématiques d'annotations de documents avec comme objectif à posteriori de faciliter l'accès à l'information à partir des mots clefs retrouvés. On s'intéressera au domaine de la classification extrême qui caractérise la tâche d'annotation automatique dès lors que le nombre d'étiquettes est important. De nombreuses difficultés découlent de la taille et de la complexité de ces données : le temps de prédiction, le stockage ainsi que la pertinence des annotations en sont les plus représentatifs. Les récentes recherches traitant de cette problématique reposent aujourd'hui sur trois types d'approches: les approches "un contre tous" apprenant autant de classifieurs que d'étiquettes; les méthodes "hiérarchiques" organisant une structure de classifieur simple ; les approches par représentations plongeant dans des espaces de faible dimension les documents. Dans cette thèse, nous étudions le schéma de classification par représentation. À travers nos contributions, nous étudions différentes approches soit pour accélérer la prédiction ou structurer les représentations. Dans un premier temps, nous étudierons des représentations discrètes à l'instar des méthodes "ECOC" pour accélérer le processus d'annotation. Dans un deuxième temps, nous considérerons les plongements hyperboliques afin de profiter des qualités de cet espace pour la représentation de données structurées.