Thèse en cours

Confidentialité et traçabilité des données en apprentissage profond

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 09/02/2026. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Tom Sander
Direction : Alain Durmus
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le
Soutenance le 09/02/2026
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : CMAP - Centre de Mathématiques appliquées
Equipe de recherche : SIMPAS : Signal IMage Probabilités numériques Apprentissage Statistique
Jury : Président / Présidente : Aurélien Bellet
Examinateurs / Examinatrices : Alain Durmus, Eva Giboulot, Jamal Atif, Chuan Guo, Furong Huang
Rapporteurs / Rapporteuses : Alain Rakotomamonjy, Furong Huang

Résumé

FR  |  
EN

L'intelligence artificielle moderne est définie par l'échelle : l'augmentation des données et des paramètres conduit à des performances accrues. Cette thèse explore la tension critique qui en découle concernant les ''traces de données''. Ces résidus de l'apprentissage créent un dilemme : ils doivent être effacés pour garantir la confidentialité, mais amplifiés pour assurer la provenance. La première partie aborde l'apprentissage confidentiel. Nous développons d'abord des lois d'échelle pour la confidentialité différentielle (DP-SGD) via l'heuristique TAN, permettant d'optimiser les hyperparamètres à moindre coût. Nous analysons ensuite la robustesse du biais implicite du SGD face au bruit, avant de proposer une méthode d'apprentissage de représentations multimodale (DP-Cap) utilisant des légendes plutôt que des pixels. La seconde partie se concentre sur le tatouage numérique (watermarking). Nous démontrons la ''radioactivité'' des données : les modèles entraînés sur des textes tatoués en gardent une trace détectable, ce qui permet d'identifier la distillation illicite et la contamination des benchmarks. Enfin, nous introduisons Watermark Anything (WAM), un modèle de tatouage d'image localisé capable de résister aux modifications complexes pour certifier l'authenticité du contenu.