Thèse soutenue

Learning from multivariate extremes : theory and application to natural language processing

FR  |  
EN
Auteur / Autrice : Hamid Jalalzai
Direction : Chloé ClavelAnne Sabourin
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA
Date : Soutenance le 06/11/2020
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Etablissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....)
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Stéphane Boucheron
Examinateurs / Examinatrices : Chloé Clavel, Anne Sabourin, Juan Pablo Piantanida, Olivier Wintenberger, Matthieu Labeau, Anja Janßen
Rapporteurs / Rapporteuses : Juan Pablo Piantanida, Olivier Wintenberger

Résumé

FR  |  
EN

Les extrêmes apparaissent dans une grande variété de données. Par exemple,concernant les données hydrologiques, les extrêmes peuvent correspondre à des inondations, des moussons voire des sécheresses. Les données liées à l’activité humaine peuvent également conduire à des situations extrêmes, dans le cas des transactions bancaires, le montant alloué à une vente peut être considérable et dépasser les transactions courantes. Un autre exemple lié à l’activité humaine est la fréquence des mots utilisés : certains mots sont omniprésents alors que d’autres sont très rares. Qu’importe le contexte applicatif, les extrêmes qui sont rares par définition, correspondent à des données particulières. Ces événements sont notamment alarmants au vu de leur potentiel impact désastreux. Cependant, les données extrêmes sont beaucoup moins considérées dans les statistiques modernes ou les pratiques courantes d’apprentissage machine, principalement car elles sont considérablement sous représentées : ces événements se retrouvent noyés - à l’ère du ”big data” - par une vaste majorité de données classiques et non extrêmes. Ainsi, la grande majorité des outils d’apprentissage machine qui se concentrent naturellement sur une distribution dans son ensemble peut être inadaptée sur les queues de distribution où se trouvent les observations extrêmes. Dans cette thèse, les défis liés aux extrêmes sont détaillés et l’accent est mis sur le développement de méthodes dédiées à ces données. La première partie se consacre à l’apprentissage statistique dans les régions extrêmes. Dans le chapitre 4, des garanties non asymptotiques sur l’erreur d’estimation de la mesure angulaire empirique sont étudiées et permettent d’améliorer des méthodes de détection d’anomalies par minimum volume set sur la sphère. En particulier, le problème de la minimisation du risque empirique pour la classification binaire dédiée aux échantillons extrêmes est traitée au chapitre 5. L’analyse non paramétrique et les garanties qui en résultent sont détaillées. L’approche est adaptée pour traiter de nouveaux échantillons se trouvant hors de l’enveloppe convexe formée par les données rencontrées. Cette propriété d’extrapolation est l’élément clé et charnière nous permettant de concevoir de nouvelles représentations conservant un label donné et d’ainsi augmenter la quantité de données. Le chapitre 6 se concentre sur l’apprentissage de cette représentation à queue lourde (pour être précis, à variation régulière) à partir d’une distribution d’entrée. Les illustrations montrent une meilleure classification des extrêmes et conduit à la génération de phrases cohérentes. Enfin, le chapitre 7 propose d’analyser la structure de dépendance des extrêmes multivariés. En constatant que les extrêmes se concentrent au sein de groupes où les variables explicatives ont tendance à prendre –de manière récurrente–de grandes valeurs simultanément ; il en résulte un problème d’optimisation visant à identifier ces sous-groupes grâce à des moyennes pondérées des composantes.