Thèse soutenue

Détermination du nombre de classes : application aux gènes et aux protéines

FR
Auteur / Autrice : Nicolas Wicker
Direction : Guy-René PerrinDino Moras
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2002
Etablissement(s) : Université Louis Pasteur (Strasbourg) (1971-2008)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Le premier problème concerne le problème de la détermination du nombre de classes dans le contexte de la classification. Nous proposons cinq méthodes différentes que nous comparons entre elles et avec des méthodes de la littérature. Deux d'entre elles, Secator et DPC donnent des résultats intéressants sur des données biologiques, respectivement des familles de protéines et des données d'expression de gènes. Secator est un critère qui détermine le << coude~>> dans la courbe de niveau d'une classification hiérarchique ascendante en partitionnant en deux groupes les pourcentages d'inertie expliquée. DPC est basé sur un test de découpage de classe qui fait l'hypothèse qu'une classe doit être découpée en deux si la densité à l'intérieur de ces deux classes est significativement supérieure à celle observée entre les deux. Une autre méthode développée est inspirée de l'approximation BIC de la vraisemblance d'un modèle, nous introduisons une fonction objectif pour choisir un modèle de mélanges composé de deux termes liés, l'un à la vraisemblance du modèle et l'autre au pourcentage de points mal classés observés. Le second problème est celui de la décomposition d'un objet en volumes élémentaires. Nous avons proposé une méthode heuristique de découpage utilisant le squelette de l'objet pour y détecter les zones de forte courbure du squelette ou de pincement de la surface, qui sont des zones privilégiées de découpages. Nous approchons chaque fragment de l'objet par son plus petit parallélépipède enblobant qui est calculé grâce aux deux propriétés mathématiques que nous avons démontrées. Le programme développé a été appliqué à des structures de protéines afin d'y trouver des zones de surface dont la composition physico-chimique est biaisée.