Estimation de densités de probabilité en grandes dimensions par modèles tensoriels de rang faible : application à la cytométrie en flux
Auteur / Autrice : | Philippe Flores |
Direction : | David Brie, Konstantin Usevich |
Type : | Thèse de doctorat |
Discipline(s) : | Automatique, Traitement du signal et des images, Génie informatique |
Date : | Soutenance le 16/04/2024 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de recherche en automatique (Nancy) |
Jury : | Président / Présidente : Marianne Clausel |
Examinateurs / Examinatrices : David Brie, Konstantin Usevich, Olivier Michel, Vicente Zarzoso, Mariya Ishteva | |
Rapporteurs / Rapporteuses : Olivier Michel, Vicente Zarzoso |
Résumé
La cytométrie en flux (CMF) est une technique d'analyse de cellules biologiques largement utilisée en immunologie, par exemple dans la recherche sur les leucémies. Le principe de la CMF est de mesurer les propriétés de fluorescence individuellement dans un volume de cellules. L'analyse des données de CMF permet d'identifier et de caractériser les populations de cellules à l'intérieur d'un volume de cellules. Les analyses effectuées manuellement reposent sur la sélection de cellules sur des nuages de points bivariés. Cette opération, appelée gating, prend du temps et est subjective. Bien qu'il existe des méthodes non supervisées, ces méthodes prennent souvent beaucoup de temps et ne permettent pas de traiter de grands jeux de données. Pour analyser les jeux de données de CMF, nous avons décidé d'utiliser une approche probabiliste. Dans ce cas, le problème d'analyse de données de CMF revient à une estimation de densités de probabilité. Dans un chapitre préliminaire, nous présentons le problème d'estimation d'histogrammes multivariés. Ce problème est considéré comme impossible en pratique en raison de la malédiction de la dimension (MdD) affirmant que la complexité d'un problème augmente de façon exponentielle avec le nombre de dimensions. Pour résoudre ce problème, deux solutions sont proposées dans la littérature. Premièrement, la densité est modélisée avec un modèle Bayésien naïf (MBN) dont la complexité est linéaire avec le nombre de dimensions. Deuxièmement, les facteurs du MBN sont obtenus via un algorithme de factorisation tensorielle couplée. Cette méthode, appelée CTF3D, couple des marginales 3D qui sont faciles à calculer en CMF par exemple. Cependant, CTF3D n'a pas résolu la MdD mais l'a plutôt déplacée à un autre niveau : le nombre de marginales 3D. Nous proposons alors un algorithme résolvant le troisième niveau de MdD. Cette méthode appelée PCTF3D couple des sous-ensembles de marginales 3D. En choisissant un sous-ensemble de triplets et donc le nombre de triplets, la complexité de PCTF3D est réduite et contrôlée par l'utilisateur. Le choix des triplets est appelé une stratégie de couplage et différentes stratégies sont présentées sous la forme d'hypergraphes. Par exemple, les stratégies aléatoires consistent à choisir des triplets au hasard alors que les stratégies équilibrées consistent à choisir des triplets de telle sorte que toutes les variables soient représentées de manière égale. Un algorithme de génération de couplages équilibrés est proposé. Enfin, des expériences numériques sur des ensembles de données réelles et synthétiques sont réalisées. Notre nouvelle méthode a introduit un modèle couplé de tenseur. Dans le quatrième chapitre, nous abordons le problème d'unicité de ce nouveau modèle. Tout d'abord, la recouvrabilité est étudiée et un algorithme qui trouve la borne de recouvrabilité est présenté. Il est basé sur l'étude du rang de la jacobienne de la paramétrisation. Quand il est appliqué à des couplages aléatoires, des cas défectueux sont observés et conduisent à des baisses de bornes de recouvrabilité. Ces cas ne sont pas observés pour les couplages équilibrés, ce qui en fait une bonne alternative pour garantir l'unicité du modèle. Deuxièmement, l'identifiabilité du modèle a été examinée. Nous utilisons les preuves précédemment démontrées dans la littérature pour prouver de meilleures conditions suffisantes d'identifiabilité. Enfin, notre méthode d'estimation est utilisée pour l'analyse de données de CMF. En considérant un MBN pour la distribution des cellules, les facteurs du MBN sont interprétés comme des groupes de cellules représentés par une proportion et leurs propriétés de fluorescence. Cette méthode nommée CTFlowHD utilise PCTF3D pour obtenir les facteurs du MBN. Après cette étape, nous présentons plusieurs outils pour visualiser les termes de rang 1. Notre méthode permet d'utiliser divers outils de visualisation, en particulier des outils déjà utilisés dans la communauté FCM.