De la diversification et combinaison efficace des réseaux profonds
Auteur / Autrice : | Alexandre Rame |
Direction : | Matthieu Cord |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Soutenance le 11/10/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : LIP6 (1997-....) |
Jury : | Président / Présidente : Patrick Gallinari |
Examinateurs / Examinatrices : Cordelia Schmid, Léon Bottou, Thomas Wolf | |
Rapporteur / Rapporteuse : Graham Taylor, Christian Wolf |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Cette thèse vise à améliorer les capacités de généralisation des réseaux de neurones profonds, un enjeu essentiel pour le développement de systèmes d'intelligence artificielle à la fois fiables et équitables. Le coeur du défi réside dans la gestion des potentiels changements de distributions entre les données d'entraînement et celles de test pour l'évaluation, pouvant réduire les performances. Dans cette thèse, nous analysons principalement des stratégies consistant à combiner plusieurs réseaux de neurones. Cette simple méthode d'ensemble est classique mais particulièrement efficace pour améliorer la généralisation. Après avoir examiné la littérature existante, nous proposons une nouvelle explication de la réussite des méthodes d'ensemble hors-distribution, en particulier lorsque les différents membres de l'ensemble sont suffisamment divers pour compenser mutuellement leurs erreurs individuelles. Pour encourager cette diversité entre les membres de l'ensemble, nous explorons plusieurs approches. La première, baptisée DICE, introduit explicitement une régularisation visant à éliminer de potentielles informations redondantes entre les membres de l'ensemble lors de l'apprentissage. Les autres méthodes de diversité utilisées dans cette thèse sont implicites, s'appuyant sur une augmentation diversifiée des données (dans MixMo), le choix d'hyperparamètres variés (dans DiWA), des entraînements intermédiaires sur des jeux de données auxiliaires (dans ratatouille), ou des récompenses différenciées en apprentissage par renforcement (dans rewarded soups). Le second enjeu majeur de cette thèse concerne l'efficacité des méthodes d'ensemble. L'objectif est d'atténuer le coût computationnel inhérent à la combinaison de plusieurs réseaux; en effet, considérant deux réseaux, la méthode standard qui consiste à moyenner leurs prédictions multiplie par deux le coût. Après avoir exploré une stratégie d'ensemble de sous-réseaux (dans MixMo), nous décrivons une contribution majeure de cette thèse: l'analyse d'une stratégie consistant à faire la moyenne des poids des réseaux de neurones plutôt que de leurs prédictions. Cette stratégie, surprenante en raison des non-linéarités des architectures profondes, fonctionne empiriquement lorsque les modèles sont appris à partir d'une même initialisation pré-entraînée. Cette moyenne des poids offre les bénéfices de l'ensemble sans aucun coût supplémentaire pour l'évaluation, en particulier sur DomainBed, le benchmark de référence pour évaluer la généralisation hors-distribution. Plus généralement, cette stratégie favorise la parallélisation des apprentissages et l'adaptabilité des modèles. Pour finir, cette thèse explore comment les méthodes d'ensemble peuvent améliorer l'alignement des intelligences artificielles. Face à l'essor rapide des modèles de langues comme ChatGPT, cet alignement est crucial pour répondre aux nombreuses préoccupations éthiques actuelles. Pour prendre en compte la diversité des préférences humaines, nous proposons une stratégie de politiques multiples en apprentissage par renforcement, rendant plus transparent l'alignement sur le monde, dans toute sa diversité.