Thèse soutenue

Découverte de nouvelles classes dans les données tabulaires : une application au diagnostic de pannes des réseaux

FR  |  
EN
Auteur / Autrice : Colin Troisemaine
Direction : Sandrine Vaton
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/10/2024
Etablissement(s) : Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur et le numérique
Partenaire(s) de recherche : Laboratoire : Equipe Math & Net - Département Informatique - Laboratoire en sciences et techniques de l'information, de la communication et de la connaissance
Entreprise : Orange (entreprise)
Jury : Président / Présidente : Éric Fabre
Examinateurs / Examinatrices : Sandrine Vaton, Michèle Sebag, Pascale Kuntz-Cosperec, Catherine Lepers, Stéphane Gosselin, Alexandre Reiffers-Masson
Rapporteur / Rapporteuse : Michèle Sebag, Pascale Kuntz-Cosperec

Résumé

FR  |  
EN

Cette thèse porte sur la découverte de nouvelles classes dans le contexte de données tabulaires. Le problème de Novel Class Discovery (NCD) consiste à extraire d’un ensemble étiqueté de classes déjà connues des connaissances qui permettront de partitionner plus précisément un ensemble non étiqueté de nouvelles classes. Bien que le NCD ait récemment fait l’objet d’une grande attention de la part de la communauté, il est généralement résolu sur des problèmes de vision par ordinateur et parfois dans des conditions irréalistes. En particulier, le nombre de nouvelles classes est souvent supposé étant connu à l’avance, et leurs étiquettes sont parfois utilisées pour ajuster les hyperparamètres. Les méthodes qui reposent sur ces hypothèses ne sont pas applicables aux scénarios du monde réel. C’est pourquoi dans cette thèse nous nous concentrons sur la résolution de découverte dans les données tabulaires lorsqu’aucune connaissance a priori n’est disponible. Les méthodes développées au cours de la thèse sont appliquées à un cas réel : le diagnostic automatique des pannes dans les réseaux de télécommunication, spécifiquement les réseaux d’accès à fibre optique. Le but est d’avoir une gestion efficace des pannes, en particulier au stade du diagnostic lorsque des pannes inconnues (nouvelles classes) peuvent apparaitre.