Thèse soutenue

La programmation DC et DCA pour certaines classes de problèmes en apprentissage et fouille de donées [i.e. données]

FR  |  
EN
Auteur / Autrice : Manh Cuong Nguyen
Direction : Hoai An Lê ThiBrieuc Conan-Guez
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 19/05/2014
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : LITA - Laboratoire d'Informatique Théorique et Appliquée - EA 3097
Jury : Président / Présidente : Tao Pham Dinh
Examinateurs / Examinatrices : Yann Guermeur, Matthias Hein
Rapporteurs / Rapporteuses : Younès Bennani, Alain Rakotomamonjy

Résumé

FR  |  
EN

La classification (supervisée, non supervisée et semi-supervisée) est une thématique importante de la fouille de données. Dans cette thèse, nous nous concentrons sur le développement d'approches d'optimisation pour résoudre certains types des problèmes issus de la classification de données. Premièrement, nous avons examiné et développé des algorithmes pour résoudre deux problèmes classiques en apprentissage non supervisée : la maximisation du critère de modularité pour la détection de communautés dans des réseaux complexes et les cartes auto-organisatrices. Deuxièmement, pour l'apprentissage semi-supervisée, nous proposons des algorithmes efficaces pour le problème de sélection de variables en semi-supervisée Machines à vecteurs de support. Finalement, dans la dernière partie de la thèse, nous considérons le problème de sélection de variables en Machines à vecteurs de support multi-classes. Tous ces problèmes d'optimisation sont non convexe de très grande dimension en pratique. Les méthodes que nous proposons sont basées sur les programmations DC (Difference of Convex functions) et DCA (DC Algorithms) étant reconnues comme des outils puissants d'optimisation. Les problèmes évoqués ont été reformulés comme des problèmes DC, afin de les résoudre par DCA. En outre, compte tenu de la structure des problèmes considérés, nous proposons différentes décompositions DC ainsi que différentes stratégies d'initialisation pour résoudre un même problème. Tous les algorithmes proposés ont été testés sur des jeux de données réelles en biologie, réseaux sociaux et sécurité informatique