Semi-supervised Margin-based Feature Selection for Classification

par Samah Hijazi

Thèse de doctorat en SCIENCES ET TECHNOLOGIES DE L'INFORMATION ET DE LA COMMUNICATION, traitement du signal et des images

Sous la direction de Denis Hamad et de Ali Kalakech.

Soutenue le 20-12-2019

à Littoral en cotutelle avec l'Université Libanaise, école doctorale des sciences et technologies , dans le cadre de École doctorale Sciences pour l'Ingénieur (Lille) , en partenariat avec Laboratoire d'informatique, signal et image de la Côte d'Opale (Calais, Pas de Calais) (équipe de recherche) , Agence universitaire de la francophonie (financeur) , Conseil National de la Recherche scientifique (Liban) (Financeur) et de Laboratoire d'Informatique Signal et Image de la Côte d'Opale (laboratoire) .

Le président du jury était Kifah Tout.

Le jury était composé de Fadi Dornaika, Ali Mansour, Ghaleb Faour, Marwa el Bouz, Mariam Kalakech.

Les rapporteurs étaient Fadi Dornaika, Ali Mansour.

  • Titre traduit

    Sélection d’Attributs Basée Marge pour la Classification dans un Contexte Semi-Supervisé


  • Résumé

    Dans le domaine de l’apprentissage automatique, la sélection d’attributs est une étape d’une importance capitale. Elle permet de réduire les coûts de calcul, d’améliorer les performances de la classification et de créer des modèles simples et interprétables.Récemment, l’apprentissage par contraintes de comparaison, un type d’apprentissage semi-supervisé, a suscité un vif intérêt pour la sélection d’attributs. En effet, celui-ci est moins contraignant car il n’impose pas la connaissance des labels des classes.Dans ce contexte semi-supervisé avec contraintes, nous avons proposé un algorithme de sélection d’attributs à large marge appelé Relief-Sc. Il s’agit d’une modification de l’algorithme supervisé Relief. Il utilise uniquement les contraintes de comparaison cannot-links pour résoudre un problème d’optimisation convexe donnant une solution unique. Les contraintes sont généralement générées aléatoirement, de manière passive et dans certains cas, défavorables aux performances de l’algorithme. Pour cela, nous proposons une méthodologie de sélection active des contraintes suivie d’une étape de propagation des contraintes. Nous avons appliqué la théorie de la perturbation sur la matrice de similarité du graphe Laplacien. Les contraintes cannot-links sont choisies parmi les couples de données ayant le plus d’influence sur la matrice de similarité. La procédure de propagation des contraintes est appliquée pour assurer une augmentation des informations de supervision tout en réduisant l’effort humain. De plus, dans un souci de gestion de la redondance des attributs, nous avons proposé d’étendre l’algorithme Relief-Sc en y intégrant une procédure de classification non supervisée des attributs. Cette approche permet de traiter les deux aspects fondamentaux de la sélection des attributs : maximiser la pertinence tout en minimisant la redondance (maximisation de la diversité) entre les attributs. Finalement, nous avons validé expérimentalement les algorithmes proposés en les comparant à d’autres algorithmes de sélection d’attributs sur plusieurs bases de données UCI. Nous avons montré qu’avec peu d’information de supervision, les performances des algorithmes proposés sont comparables aux algorithmes de sélection supervisée et supérieures aux algorithmes non supervisés.


  • Résumé

    Feature selection is a preprocessing step crucial to the performance of machine learning algorithms. It allows reducing computational costs, improving classification performances and building simple and understandable models. Recently, using pairwise constraints, a cheaper kind of supervision information that does not need to reveal the class labels of data points, received a great deal of interest in the domain of feature selection. Accordingly, we first proposed a semi-supervised margin-based constrained feature selection algorithm called Relief-Sc. It is a modification of the well-known Relief algorithm from its optimization perspective. It utilizes cannot-link constraints only to solve a simple convex problem in a closed-form giving a unique solution. However, we noticed that in the literature these pairwise constraints are generally provided passively and generated randomly over multiple algorithmic runs by which the results are averaged. This leads to the need for a large number of constraints that might be redundant, unnecessary, and under some circumstances even inimical to the algorithm’s performance. It also masks the individual effect of each constraint set and introduces a human labor-cost burden. Therefore, we suggested a framework for actively selecting and then propagating constraints for feature selection. For that, we made use of the similarity matrix based on Laplacian graph. We assumed that when a small perturbation of the similarity value between a data couple leads to a more well-separated cluster indicator based on the second eigenvector of the graph Laplacian, this couple is expected to be a pairwise query of higher and more significant impact. Constraints propagation, on the other side, ensures increasing supervision information while decreasing the cost of human labor. Besides, for the sake of handling feature redundancy, we proposed extending Relief- Sc to a feature selection approach that combines feature clustering and hypothesis margin maximization. This approach is able to deal with the two core aspects of feature selection i.e. maximizing relevancy while minimizing redundancy (maximizing diversity) among features. Eventually, we experimentally validate our proposed algorithms in comparison to other known feature selection methods on multiple well-known UCI benchmark datasets which proved to be prominent. Only with little supervision information, the proposed algorithms proved to be comparable to supervised feature selection algorithms and were superior to the unsupervised ones.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université du Littoral-Côte d'Opale (Dunkerque, Nord). SCD.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.