Thèse soutenue

Apprentissage automatique dynamique pour la classification supervisée et non supervisée

FR  |  
EN
Auteur / Autrice : Adela-Maria Sîrbu
Direction : Abdelaziz BensrhairGabriela Czibula
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/06/2016
Etablissement(s) : Rouen, INSA en cotutelle avec Universitatea Babeș-Bolyai (Cluj-Napoca, Roumanie)
Ecole(s) doctorale(s) : École doctorale sciences physiques mathématiques et de l'information pour l'ingénieur (Saint-Etienne-du-Rouvray, Seine-Maritime ; ....-2016)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...)
: Normandie Université (2015-....)
Jury : Président / Présidente : Laurent Vercouter
Examinateurs / Examinatrices : Abdelaziz Bensrhair, Gabriela Czibula, Laurent Vercouter, Fawzi Nashashibi, Daniela Zaharie, Alexandrina Rogozan, Horia Florin Pop
Rapporteur / Rapporteuse : Fawzi Nashashibi, Daniela Zaharie

Résumé

FR  |  
EN

La direction de recherche que nous abordons dans la thèse est l'application des modèles dynamiques d'apprentissage automatique pour résoudre les problèmes de classification supervisée et non supervisée. Les problèmes particuliers que nous avons décidé d'aborder dans la thèse sont la reconnaissance des piétons (un problème de classification supervisée) et le groupement des données d'expression génétique (un problème de classification non supervisée). Les problèmes abordés sont représentatifs pour les deux principaux types de classification et sont très difficiles, ayant une grande importance dans la vie réelle. La première direction de recherche que nous abordons dans le domaine de la classification non supervisée dynamique est le problème de la classification dynamique des données d'expression génétique. L'expression génétique représente le processus par lequel l'information d'un gène est convertie en produits de gènes fonctionnels : des protéines ou des ARN ayant différents rôles dans la vie d'une cellule. La technologie des micro-réseaux moderne est aujourd'hui utilisée pour détecter expérimentalement les niveaux d'expression de milliers de gènes, dans des conditions différentes et au fil du temps. Une fois que les données d'expression génétique ont été recueillies, l'étape suivante consiste à analyser et à extraire des informations biologiques utiles. L'un des algorithmes les plus populaires traitant de l'analyse des données d'expression génétique est le groupement, qui consiste à diviser un certain ensemble en groupes, où les composants de chaque groupe sont semblables les uns aux autres données. Dans le cas des ensembles de données d'expression génique, chaque gène est représenté par ses valeurs d'expression (caractéristiques), à des points distincts dans le temps, dans les conditions contrôlées. Le processus de regroupement des gènes est à la base des études génomiques qui visent à analyser les fonctions des gènes car il est supposé que les gènes qui sont similaires dans leurs niveaux d'expression sont également relativement similaires en termes de fonction biologique. Le problème que nous abordons dans le sens de la recherche de classification non supervisée dynamique est le regroupement dynamique des données d'expression génique. Dans notre cas, la dynamique à long terme indique que l'ensemble de données ne sont pas statiques, mais elle est sujette à changement. Pourtant, par opposition aux approches progressives de la littérature, où l'ensemble de données est enrichie avec de nouveaux gènes (instances) au cours du processus de regroupement, nos approches abordent les cas lorsque de nouvelles fonctionnalités (niveaux d'expression pour de nouveaux points dans le temps) sont ajoutés à la gènes déjà existants dans l'ensemble de données. À notre connaissance, il n'y a pas d'approches dans la littérature qui traitent le problème de la classification dynamique des données d'expression génétique, définis comme ci-dessus. Dans ce contexte, nous avons introduit trois algorithmes de groupement dynamiques que sont capables de gérer de nouveaux niveaux d'expression génique collectés, en partant d'une partition obtenue précédente, sans la nécessité de ré-exécuter l'algorithme à partir de zéro. L'évaluation expérimentale montre que notre méthode est plus rapide et plus précis que l'application de l'algorithme de classification à partir de zéro sur la fonctionnalité étendue ensemble de données...