Thèse soutenue

Développement et mise en œuvre d'algorithmes de classification par bassin versant basés sur des ensembles de données déséquilibrées : une application à la détection du syndrome thoracique aigu chez les patients atteints de drépanocytose

FR  |  
EN
Auteur / Autrice : Yamna Ouchtar
Direction : Laurent NajmanPablo Bartolucci
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/11/2023
Etablissement(s) : Université Gustave Eiffel
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009)
Jury : Examinateurs / Examinatrices : Laurent Najman, Pablo Bartolucci, Alexandre Falcão, Camille Kurtz, Benjamin Perret, Valentine Brousse, Hugues Talbot, Nora Leïla Ouzir
Rapporteurs / Rapporteuses : Alexandre Falcão, Camille Kurtz

Résumé

FR  |  
EN

La drépanocytose est une maladie héréditaire rare, chronique et potentiellement mortelle qui affecte les globules rouges. En particulier, le syndrome thoracique aigu (SCA) est une complication redoutée en raison de son association avec une mortalité accrue chez les patients hospitalisés. Pour réduire cette mortalité, les variables des biomarqueurs sont examinées à l'arrivée du patient au service des urgences, puis une prédiction statistique est effectuée pour déterminer si le syndrome se produira. Lors de la réalisation, l'utilisation de méthodes statistiques conventionnelles ou d'algorithmes d'apprentissage automatique conduit souvent à des problèmes tels que l'overfitting et la variabilité élevée. Cela est dû au fait que la détection du syndrome thoracique aigu (STA) est un exemple typique de problème de classification déséquilibrée. Notre principal objectif est de trouver des cas de syndrome qui représentent un sous-ensemble de l'ensemble des patients non affectés par le STA.Le concept d'ensembles de données déséquilibrés est essentiel dans ce contexte. Un ensemble de données binaires est considéré comme déséquilibré lorsqu'il existe une disparité significative entre les occurrences de la classe minoritaire (dans notre cas, l'occurrence du STA) et de la classe majoritaire (les patients non affectés par le STA). Les techniques traditionnelles d'apprentissage automatique sont généralement conçues dans l'hypothèse d'ensembles de données équilibrés. Par conséquent, leur application à des ensembles de données déséquilibrés produit souvent des performances non optimales. En raison de ces difficultés, un grand nombre de méthodes, appelées méthodes déséquilibrées, ont été conçues et mises en œuvre. Néanmoins, notre enquête a révélé l'absence d'un cadre établi pour comparer les différentes méthodes de déséquilibre. En outre, nous démontrerons qu'en dépit de la profusion de méthodes, aucune d'entre elles ne permet d'améliorer la détection de STA. En réponse, un pipeline structuré a été formulé pour évaluer et comparer systématiquement diverses méthodes de déséquilibre.Simultanément, reconnaissant les limites inhérentes aux méthodologies existantes, une approche innovante utilisant la morphologie mathématique et les approches par bassins versants a été proposée. L'idée de combiner la morphologie mathématique et les bassins versants repose sur le fait que la détection de petits objets dans une image a été explorée de manière plus algorithmique que la détection de petites classes dans un ensemble de données numériques.Ce concept est également basé sur la corrélation progressive établie entre les lignes de partage des eaux appliquées aux images et leur application dans la classification. Par conséquent, nous avons conçu trois algorithmes distincts basés sur la théorie du graphe des bassins versants et les principes hiérarchiques.Le premier algorithme est ancré dans l'approche traditionnelle du suréchantillonnage, tandis que le deuxième algorithme adopte une méthode centrée sur l'optimisation métrique basée sur l'apprentissage. Enfin, le troisième algorithme introduit un algorithme sur place fondé sur les hiérarchies des bassins versants, spécialement conçu pour réduire la dépendance à l'égard de la structure de l'ensemble de données.Les résultats mettent en évidence l'efficacité des algorithmes de classification déséquilibrée basés sur les bassins versants pour améliorer la détection du STA. Ces algorithmes répondent efficacement aux préoccupations liées à l'overfitting et à la variabilité, ce qui se traduit par une meilleure reproductibilité.Par exemple, la technique de suréchantillonnage basée sur les bassins versants, connue sous le nom de WSSMOTE, a permis de réduire le surajustement de 13,3% à 1,2%. En outre, l'applicabilité de ces algorithmes peut être étendue aux problèmes de classification du monde réel. Dans certains cas, ces algorithmes ont permis d'améliorer les mesures de performance