Méthodes ensembliste pour des problèmes de classification multi-vues et multi-classes avec déséquilibres
| Auteur / Autrice : | Sokol Koco |
| Direction : | Frédéric Béchet |
| Type : | Thèse de doctorat |
| Discipline(s) : | Informatique |
| Date : | Soutenance le 16/12/2013 |
| Etablissement(s) : | Aix-Marseille |
| Ecole(s) doctorale(s) : | École Doctorale Mathématiques et Informatique de Marseille (Marseille) |
| Jury : | Président / Présidente : Hery-liva Ralaivola |
| Examinateurs / Examinatrices : Nicolas Usunier, Geraldine Damnati, Cecile Capponi | |
| Rapporteurs / Rapporteuses : Francois Yvon, Marc Sebban |
Mots clés
Mots clés contrôlés
Résumé
De nos jours, dans plusieurs domaines, tels que la bio-informatique ou le multimédia, les données peuvent être représentées par plusieurs ensembles d'attributs, appelés des vues. Pour une tâche de classification donnée, nous distinguons deux types de vues : les vues fortes sont celles adaptées à la tâche, les vues faibles sont adaptées à une (petite) partie de la tâche ; en classification multi-classes, chaque vue peut s'avérer forte pour reconnaître une classe, et faible pour reconnaître d’autres classes : une telle vue est dite déséquilibrée. Les travaux présentés dans cette thèse s'inscrivent dans le cadre de l'apprentissage supervisé et ont pour but de traiter les questions d'apprentissage multi-vue dans le cas des vues fortes, faibles et déséquilibrées. La première contribution de cette thèse est un algorithme d'apprentissage multi-vues théoriquement fondé sur le cadre de boosting multi-classes utilisé par AdaBoost.MM. La seconde partie de cette thèse concerne la mise en place d'un cadre général pour les méthodes d'apprentissage de classes déséquilibrées (certaines classes sont plus représentées que les autres). Dans la troisième partie, nous traitons le problème des vues déséquilibrées en combinant notre approche des classes déséquilibrées et la coopération entre les vues mise en place pour appréhender la classification multi-vues. Afin de tester les méthodes sur des données réelles, nous nous intéressons au problème de classification d'appels téléphoniques, qui a fait l'objet du projet ANR DECODA. Ainsi chaque partie traite différentes facettes du problème.