Optimal transport-based machine learning with applications to genomics and actuarial science

Thi Thanh Yen Nguyen

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Machine learning fondé sur le transport optimal avec applications à la génomique et à l'actuariat

FR |

EN

Auteur / Autrice :	Thi Thanh Yen Nguyen
Direction :	Antoine Chambaz, Olivier Bouaziz
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques appliquées
Date :	Soutenance le 14/12/2023
Etablissement(s) :	Université Paris Cité
Ecole(s) doctorale(s) :	École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche :	Laboratoire : MAP5 - Mathématiques Appliquées à Paris 5
Jury :	Président / Présidente : Estelle Kuhn
	Examinateurs / Examinatrices : Estelle Kuhn, Claire Boyer
	Rapporteurs / Rapporteuses : Pierre Neuvial, Mohamed Hebiri

Mots clés

FR |

EN

Mots clés contrôlés

Transport optimal de mesure

Catastrophes naturelles

Chorée de Huntington

Mots clés libres

Algorithme de Sinkhorn

Algorithme proximal

Catastrophes naturelles

Divergence de Sinkhorn

Données omics

Maladie de Huntington

Matching

Transport optimal

Résumé

FR |

EN

Le transport optimal (OT) est une théorie mathématique puissante à l'interface de la théorie de l'optimisation et de celle des probabilités, avec de nombreuses applications dans un large éventail de domaines. Cette thèse présente l'application de la théorie du transport optimal et des statistiques dans deux domaines : la biologie et l'actuariat. La première partie de la thèse aborde le problème biologique consistant à chercher à mieux comprendre la régulation des micro-ARN (miARN) dans le striatum des souris modèles de la maladie de Huntington (HD). Pour ce faire, nous développons plusieurs algorithmes conçus pour apprendre un modèle de correspondance entre deux ensembles de données dans des situations où il est souhaitable de faire correspondre des éléments qui présentent une relation appartenant à un modèle paramétrique connu. Les deux ensembles de données contiennent des informations sur les miARN et les ARN messagers (ARNm), respectivement, chaque point de données consistant en un profil multidimensionnel. L'hypothèse biologique forte est que si un miARN induit la dégradation d'un ARNm cible ou bloque sa traduction en protéines, ou les deux, alors le profil du premier, disons y, devrait être similaire à moins le profil du second, disons -x. Nous considérons une hypothèse plus souple selon laquelle y est alors similaire à t(x), où t est une transformation affine dans une classe paramétrique qui inclut moins l'identité et traduit les connaissances d'experts sur l'expérience qui a produit les données. Les algorithmes se déroulent en deux étapes. Au cours de la première étape, un plan de transport optimal P et une transformation affine optimale sont appris, en utilisant l'algorithme de Sinkhorn-Knopp et une descente de gradient par mini-batch. Au cours de la deuxième étape, P est exploité pour obtenir soit plusieurs co-clusters, soit plusieurs en- sembles d'éléments appariés. Une étude de simulation illustre la façon dont les algorithmes fonctionnent et performent. L'application aux données réelles illustrent plus avant leur applicabilité et leur intérêt. La deuxième partie de la thèse traite d'un problème actuariel lié aux événements de sécheresse en France. Les sécheresses sont les deuxièmes catastrophes naturelles les plus coûteuses dans le cadre du régime français d'indemnisation des catastrophes naturelles. Un aspect critique du régime national d'indemnisation implique que les villes soumettent des demandes de déclaration de catastrophe naturelle pour un événement de sécheresse, ce qui constitue une étape clé. Nous relevons le défi de prévoir quelles villes soumettront de telles demandes. Le problème peut être abordé comme une tâche de classification, en tirant partie de la puissance des algorithmes de classification. Dans une perspective légèrement différente, nous introduisons une procédure alternative qui s'appuie sur la théorie OT et sur iPiano, un algorithme proximal inertiel pour l'optimisation non convexe. Le problème d'optimisation est conçu de manière à produire un vecteur parcimonieux de prédictions, car on sait que relativement peu de villes soumettront des demandes. En outre, nous développons une procédure hybride qui combine et utilise de manière synergique les deux types de prédictions, ce qui permet d'améliorer la précision des prévisions. L'application aux données réelles est présentée et discutée en détail. La convergence de l'algorithme iPiano est établie à l'aide de la notion de structures o-minimales.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Machine learning fondé sur le transport optimal avec applications à la génomique et à l'actuariat

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Machine learning fondé sur le transport optimal avec applications à la génomique et à l'actuariat

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses