Amélioration des procédures adaptatives pour l'apprentissage supervisé des données réelles

Emna Bahri

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Amélioration des procédures adaptatives pour l'apprentissage supervisé des données réelles

FR |

EN

Auteur / Autrice :	Emna Bahri
Direction :	Stéphane Lallich
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 08/12/2010
Etablissement(s) :	Lyon 2
Ecole(s) doctorale(s) :	École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche :	Laboratoire : Equipe de Recherche en Ingenierie des Connaissances
Jury :	Président / Présidente : Gilbert Saporta
	Examinateurs / Examinatrices : Stan Matwin, Younès Bennani, Philippe Lenca, Jean-Marc Petit

Mots clés

FR |

EN

Mots clés contrôlés

Théorie de la prévision

Exploration de données

Apprentissage automatique

Mots clés libres

Apprentissage supervisé

Données réelles

Boosting

Bruit

Données déséquilibrées

Classification associative

Résumé

FR |

EN

L'apprentissage automatique doit faire face à différentes difficultés lorsqu'il est confronté aux particularités des données réelles. En effet, ces données sont généralement complexes, volumineuses, de nature hétérogène, de sources variées, souvent acquises automatiquement. Parmi les difficultés les plus connues, on citera les problèmes liés à la sensibilité des algorithmes aux données bruitées et le traitement des données lorsque la variable de classe est déséquilibrée. Le dépassement de ces problèmes constitue un véritable enjeu pour améliorer l'efficacité du processus d'apprentissage face à des données réelles. Nous avons choisi dans cette thèse de réfléchir à des procédures adaptatives du type boosting qui soient efficaces en présence de bruit ou en présence de données déséquilibrées.Nous nous sommes intéressés, d’abord, au contrôle du bruit lorsque l'on utilise le boosting. En effet, les procédures de boosting ont beaucoup contribué à améliorer l'efficacité des procédures de prédiction en data mining, sauf en présence de données bruitées. Dans ce cas, un double problème se pose : le sur-apprentissage des exemples bruités et la détérioration de la vitesse de convergence du boosting. Face à ce double problème, nous proposons AdaBoost-Hybride, une adaptation de l’algorithme Adaboost fondée sur le lissage des résultats des hypothèses antérieures du boosting, qui a donné des résultats expérimentaux très satisfaisants.Ensuite, nous nous sommes intéressés à un autre problème ardu, celui de la prédiction lorsque la distribution de la classe est déséquilibrée. C'est ainsi que nous proposons une méthode adaptative du type boosting fondée sur la classification associative qui a l’intérêt de permettre la focalisation sur des petits groupes de cas, ce qui est bien adapté aux données déséquilibrées. Cette méthode repose sur 3 contributions : FCP-Growth-P, un algorithme supervisé de génération des itemsets de classe fréquents dérivé de FP-Growth dans lequel est introduit une condition d'élagage fondée sur les contre-exemples pour la spécification des règles, W-CARP une méthode de classification associative qui a pour but de donner des résultats au moins équivalents à ceux des approches existantes pour un temps d'exécution beaucoup plus réduit, enfin CARBoost, une méthode de classification associative adaptative qui utilise W-CARP comme classifieur faible. Dans un chapitre applicatif spécifique consacré à la détection d’intrusion, nous avons confronté les résultats de AdaBoost-Hybride et de CARBoost à ceux des méthodes de référence (données KDD Cup 99).

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Amélioration des procédures adaptatives pour l'apprentissage supervisé des données réelles

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Amélioration des procédures adaptatives pour l'apprentissage supervisé des données réelles

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses