Réduction de la dimensionnalité basée sur l'information mutuelle pour la classification
Auteur / Autrice : | Gaoshuai Wang |
Direction : | Amir Hajjam El Hassani |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 08/12/2022 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....) |
Partenaire(s) de recherche : | Laboratoire : Nanomédecine, imagerie, thérapeutique (Besançon ; 2012-2023) - Nanomédecine- imagerie- thérapeutique - UFC (UR 4662) / NIT / NANOMEDECINE |
Etablissement de préparation : Université de technologie de Belfort-Montbéliard (1999-....) | |
Jury : | Président / Présidente : Franck Joseph Aimé Gechter |
Examinateurs / Examinatrices : Amir Hajjam El Hassani, Marcilio Desouto, Younes Jabrane, Fabrice Lauri, Germain Forestier, Emmanuel Andrès | |
Rapporteur / Rapporteuse : Marcilio Desouto, Younes Jabrane |
Mots clés
Mots clés contrôlés
Résumé
La classification est l'une des tâches les plus importantes dans la reconnaissance de formes, le traitement d’images ainsi que l'aspect fondamental du travail de l'intelligence artificielle. Avant l'apparition de l'apprentissage profond, les personnes passaient beaucoup de temps à l'ingénierie des fonctionnalités (feature engineering) du fait qu'une sélection appropriée des fonctionnalités pouvait évidemment améliorer la performance de la classification.Cependant, l'augmentation de l'échelle des données, entraînant une augmentation exponentielle de la composition des fonctionnalités, pose de grands défis au choix des fonctionnalités pertinentes, et les algorithmes traditionnels (comme l'ACP) ne sont peut - être pas appropriés. Ainsi, il est urgent de développer des algorithmes plus efficaces avant d'appliquer le classificateur aux données.Tout d'abord, nous nous concentrons sur le diagnostic des maladies cardiaques par l'introduction d'une méthode d'information mutuelle (mRMR) et nous soulignons les avantages des ensembles de données originaux (74 fonctionnalités) par rapport aux ensembles de données de traitement (13 fonctionnalités), qui sont toutefois populaires dans les études actuelles. De plus, nous avons vérifié la rationalité de la combinaison incrémentale de fonctionnalités pour obtenir la meilleure combinaison. En comparant les fonctionnalités de soutien choisies par le mRMR à partir de l'ensemble de données original avec les fonctionnalités médicales, nous avons constaté que certaines fonctionnalités non médicales peuvent également contenir des renseignements positifs.Ensuite, une méthode adaptative de maximisation de l'information mutuelle conditionnelle (ANPFCMIM) est proposée pour réduire l'incertitude de la cible et la segmentation des fonctionnalités.ANPFCMIM se compose de deux parties : la partition adaptative du voisinage et la recherche d'un facteur de partition approprié de l'information mutuelle; La méthode de maximisation de l'information mutuelle conditionnelle complète vise à obtenir plus d'information mutuelle conditionnelle.Les résultats montrent que l'ANP est utile pour trouver une partition appropriée et que la FCMIM peut encore améliorer l'effet du classificateur.Enfin, bien que la combinaison incrémentale de fonctionnalités se soit bien comportée dans la recherche de la combinaison optimale, il existe encore une redondance dans les fonctionnalités sélectionnées par le mRMR. Cependant, la recherche d'une combinaison optimale est un problème NP-difficile, si le nombre de fonctionnalités est ''*N *'', il est nécessaire de tester la combinaison ''*2 ^ N- 1 *''.Les algorithmes heuristiques, tels que les algorithmes génétiques, sont les méthodes les plus couramment utilisées pour résoudre les problèmes d'optimisation. La plupart de ces algorithmes peuvent obtenir de bons résultats dans un délai acceptable.Nous utilisons un mécanisme dynamique pour améliorer l'algorithme génétique traditionnel et le combiner avec la méthode mRMR.Les expériences montrent que notre méthode est meilleure que l'algorithme génétique ainsi qu’à d'autres algorithmes heuristiques, tels que l'algorithme de pollinisation des fleurs (APF), l'algorithme d'optimisation des baleines (WOA) et l'algorithme d'optimisation par essaims particulaires (OEP).