Thèse soutenue

Méthodes ensembliste pour des problèmes de classification multi-vues et multi-classes avec déséquilibres

FR  |  
EN
Auteur / Autrice : Sokol Koco
Direction : Frédéric Béchet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 16/12/2013
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : École Doctorale Mathématiques et Informatique de Marseille (Marseille)
Jury : Président / Présidente : Hery-liva Ralaivola
Examinateurs / Examinatrices : Nicolas Usunier, Geraldine Damnati, Cecile Capponi
Rapporteurs / Rapporteuses : Francois Yvon, Marc Sebban

Résumé

FR  |  
EN

De nos jours, dans plusieurs domaines, tels que la bio-informatique ou le multimédia, les données peuvent être représentées par plusieurs ensembles d'attributs, appelés des vues. Pour une tâche de classification donnée, nous distinguons deux types de vues : les vues fortes sont celles adaptées à la tâche, les vues faibles sont adaptées à une (petite) partie de la tâche ; en classification multi-classes, chaque vue peut s'avérer forte pour reconnaître une classe, et faible pour reconnaître d’autres classes : une telle vue est dite déséquilibrée. Les travaux présentés dans cette thèse s'inscrivent dans le cadre de l'apprentissage supervisé et ont pour but de traiter les questions d'apprentissage multi-vue dans le cas des vues fortes, faibles et déséquilibrées. La première contribution de cette thèse est un algorithme d'apprentissage multi-vues théoriquement fondé sur le cadre de boosting multi-classes utilisé par AdaBoost.MM. La seconde partie de cette thèse concerne la mise en place d'un cadre général pour les méthodes d'apprentissage de classes déséquilibrées (certaines classes sont plus représentées que les autres). Dans la troisième partie, nous traitons le problème des vues déséquilibrées en combinant notre approche des classes déséquilibrées et la coopération entre les vues mise en place pour appréhender la classification multi-vues. Afin de tester les méthodes sur des données réelles, nous nous intéressons au problème de classification d'appels téléphoniques, qui a fait l'objet du projet ANR DECODA. Ainsi chaque partie traite différentes facettes du problème.