Thèse soutenue

Apprentissage à partir de données et d’apprenants

FR  |  
EN
Auteur / Autrice : Yohan Foucade
Direction : Younès Bennani
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/06/2022
Etablissement(s) : Paris 13
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
Jury : Examinateurs / Examinatrices : Yann Guermeur, Mathilde Mougeot, Camille Couprie, Basarab Mateï
Rapporteur / Rapporteuse : Yann Guermeur, Mathilde Mougeot, Camille Couprie

Résumé

FR  |  
EN

Cette thèse porte sur l'apprentissage collaboratif. Ce paradigme d'apprentissage est une des nombreuses méthodes ayant vu le jour au cours de ces dernières années afin de tenter d'exploiter le plus efficacement possible le volume croissant de données générées et stockées de par le monde. Parmi ces méthodes, on trouve par exemple l'apprentissage fédéré et le clustering ensembliste. Ces différentes approches ont pour point commun de permettre un calcul distribué et préservant la confidentialité des données traitées. Leur objectif est d'obtenir un modèle entrainé sur des données dispersées sur différents nœuds d'un réseau. Ce qui est fait soit en entrainant directement un modèle partagé par les différents sites, soit en cherchant un consensus entre plusieurs apprenants entraînés séparément. Ce dernier point constitue la principale différence avec l'apprentissage collaboratif. En effet, dans ce paradigme, on ne cherche pas à réaliser un consensus. L'objectif est que chaque apprenant bénéficie des résultats obtenus par ses homologues tout en préservant la confidentialité des données. Un des enjeux du domaine est le choix des sites distants avec lesquels collaborer et de l'intensité de la collaboration. Sans précaution particulière, il est tout à fait possible que les performances locales soient détériorées suite à la collaboration. Nous proposons l'utilisation de l'entropie comme mesure de l'incertitude quant aux prédictions des différents modèles afin de pondérer, pour chaque modèle, l'information qu'il reçoit de ses homologues. Nous proposons une implémentation dans le cadre de l'apprentissage supervisé en utilisant des arbres de décision comme modèle de base. Un autre verrou scientifique réside dans les difficultés liées à l'apprentissage non-supervisé. Outre le fait qu'il n'existe pas de mesure objective de la performance, le paradigme d'apprentissage collaboratif souffre du fait qu'il n'y ait pas de correspondance évidente entre les classes formées par les différents modèles. Nous proposons une architecture de clustering collaboratif permettant à tous les modèles de s'améliorer. Nous proposons aussi une analyse détaillée de ce mode de collaboration en étudiant l'effet, au niveau individuel, de l'échange d'informations entre les différents apprenants. Les approches proposées dans les deux premiers chapitres sont essentiellement heuristiques et ont été implémentées dans le but de répondre aux verrous scientifiques identifiés au début de ces travaux. Nous en fournissons néanmoins une analyse théorique portant sur la complexité en espace, sur certaines conditions suffisantes pour que l'algorithme termine, et sur les bornes de généralisation