Analyse statistique des algorithmes dédiés aux événements rares
| Auteur / Autrice : | Anass Aghbalou |
| Direction : | Anne Sabourin |
| Type : | Thèse de doctorat |
| Discipline(s) : | Mathématiques appliquées |
| Date : | Soutenance le 14/02/2024 |
| Etablissement(s) : | Institut polytechnique de Paris |
| Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) |
| Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information |
| Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) | |
| Jury : | Président / Présidente : Pavlo Mozharovskyi |
| Examinateurs / Examinatrices : Pavlo Mozharovskyi, Olivier Wintenberger, Stanislav Volgushev, Maud Thomas | |
| Rapporteurs / Rapporteuses : Olivier Wintenberger, Stanislav Volgushev | |
| DOI : | 10.70675/847de9d7za95ez4a74za609za60cd426d222 |
Mots clés
Résumé
Cette thèse se concentre sur l'établissement de garanties statistiques pour l'efficacité des algorithmes d'apprentissage automatique dans des environnements pauvres en données, en particulier dans les contextes d'analyse des valeurs extrêmes, d'apprentissage par transfert et de classification déséquilibrée. Nous développons des bornes supérieures de probabilité qui servent de garanties théoriques pour l'efficacité des algorithmes adaptés à ces scénarios spécifiques. Notre approche commence par une critique des méthodes statistiques actuelles dans des contextes limites en données. Nous identifions les limitations dans les cadres existants et introduisons de nouvelles bornes de probabilité spécifiquement conçues pour fournir des garanties de performance d'algorithme sous contrainte de données. Ces bornes ne sont pas seulement rigoureuses sur le plan théorique, mais sont également directement applicables aux défis pratiques de l'apprentissage automatique. Nous validons nos résultats théoriques avec des études empiriques dans chacun des trois domaines cibles. Les résultats confirment que nos bornes dérivées sont efficaces pour certifier l'efficacité des algorithmes dans la gestion des valeurs extrêmes, le transfert de connaissances dans des domaines de données éparses et la classification de jeux de données déséquilibrés. En conclusion, la thèse fait progresser le domaine de l'apprentissage statistique en fournissant des garanties théoriques précises pour la performance des algorithmes dans des situations pauvres en données. Ce travail est particulièrement pertinent pour les applications où il est critique de faire des inférences précises avec des données limitées.