Machine learning fondé sur le transport optimal avec applications à la génomique et à l'actuariat
Auteur / Autrice : | Thi Thanh Yen Nguyen |
Direction : | Antoine Chambaz, Olivier Bouaziz |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques appliquées (ed 386) |
Date : | Inscription en doctorat le Soutenance le 14/12/2023 |
Etablissement(s) : | Université Paris Cité |
Ecole(s) doctorale(s) : | ED 386 Sciences Mathematiques de Paris Centre |
Jury : | Examinateurs / Examinatrices : Claire Boyer, Estelle Kuhn, Christian Neri, Pierre Neuvial, Mohamed Hebiri, Antoine Chambaz, Olivier Bouaziz |
Rapporteur / Rapporteuse : Pierre Neuvial, Mohamed Hebiri |
Résumé
Le transport optimal (OT) est une théorie mathématique puissante à l'interface de la théorie de l'optimisation et de celle des probabilités, avec de nombreuses applications dans un large éventail de domaines. Cette thèse présente l'application de la théorie du transport optimal et des statistiques dans deux domaines : la biologie et l'actuariat. La première partie de la thèse aborde le problème biologique consistant à chercher à mieux comprendre la régulation des micro-ARN (miARN) dans le striatum des souris modèles de la maladie de Huntington (HD). Pour ce faire, nous développons plusieurs algorithmes conçus pour apprendre un modèle de correspondance entre deux ensembles de données dans des situations où il est souhaitable de faire correspondre des éléments qui présentent une relation appartenant à un modèle paramétrique connu. Les deux ensembles de données contiennent des informations sur les miARN et les ARN messagers (ARNm), respectivement, chaque point de données consistant en un profil multidimensionnel. L'hypothèse biologique forte est que si un miARN induit la dégradation d'un ARNm cible ou bloque sa traduction en protéines, ou les deux, alors le profil du premier, disons y, devrait être similaire à moins le profil du second, disons -x. Nous considérons une hypothèse plus souple selon laquelle y est alors similaire à t(x), où t est une transformation affine dans une classe paramétrique qui inclut moins l'identité et traduit les connaissances d'experts sur l'expérience qui a produit les données. Les algorithmes se déroulent en deux étapes. Au cours de la première étape, un plan de transport optimal P et une transformation affine optimale sont appris, en utilisant l'algorithme de Sinkhorn-Knopp et une descente de gradient par mini-batch. Au cours de la deuxième étape, P est exploité pour obtenir soit plusieurs co-clusters, soit plusieurs en- sembles d'éléments appariés. Une étude de simulation illustre la façon dont les algorithmes fonctionnent et performent. L'application aux données réelles illustrent plus avant leur applicabilité et leur intérêt. La deuxième partie de la thèse traite d'un problème actuariel lié aux événements de sécheresse en France. Les sécheresses sont les deuxièmes catastrophes naturelles les plus coûteuses dans le cadre du régime français d'indemnisation des catastrophes naturelles. Un aspect critique du régime national d'indemnisation implique que les villes soumettent des demandes de déclaration de catastrophe naturelle pour un événement de sécheresse, ce qui constitue une étape clé. Nous relevons le défi de prévoir quelles villes soumettront de telles demandes. Le problème peut être abordé comme une tâche de classification, en tirant partie de la puissance des algorithmes de classification. Dans une perspective légèrement différente, nous introduisons une procédure alternative qui s'appuie sur la théorie OT et sur iPiano, un algorithme proximal inertiel pour l'optimisation non convexe. Le problème d'optimisation est conçu de manière à produire un vecteur parcimonieux de prédictions, car on sait que relativement peu de villes soumettront des demandes. En outre, nous développons une procédure hybride qui combine et utilise de manière synergique les deux types de prédictions, ce qui permet d'améliorer la précision des prévisions. L'application aux données réelles est présentée et discutée en détail. La convergence de l'algorithme iPiano est établie à l'aide de la notion de structures o-minimales.