Thèse soutenue

Analyse géometrique des données de dissimilarité par la multidimensional scaling : une approche parallèle basée sur les algorithmes génétiques : application aux séquences biologiques

FR  |  
EN
Auteur / Autrice : Roger Ngouenet
Direction : Israël César Lerman
Type : Thèse de doctorat
Discipline(s) : Mathématiques et applications
Date : Soutenance en 1995
Etablissement(s) : Rennes 1

Mots clés

FR

Mots clés contrôlés

Résumé

FR

L'objet de cette these est l'etude d'une methode robuste utilisant les algorithmes genetiques pour la representation geometrique euclidienne des coefficients de proximites, plus particulierement les indices de dissimilarite non euclidiens, et ce, par la multidimensional scaling. Nous adoptons l'approche des moindres carres initialisee par kruskal qui consiste a generer des configurations par l'optimisation des criteres numeriques apres fixation d'une metrique et de la dimension de l'espace de visualisation des graphes. Notre presentation restreint son ambition au cadre euclidien. Dans un premier temps, nous presentons plusieurs methodes de la multidimensional scaling fondes sur le gradient ou sous-gradient et des transformations algebriques plus ou moins justifiees dont le developpement pose d'importants problemes de mise en uvre et nous proposons d'optimiser les fonctions pertes, independamment des modeles, par les algorithmes genetiques. Les algorithmes genetiques representent des techniques d'optimisation stochastiques inspirees directement de la theorie darwinienne, sur les mecanismes de l'evolution naturelle des etres vivants et de la genetique. L'originalite des structures markoviennes soulevees par ces algorithmes a conduit au developpement des theories complexes permettant de mieux apprehender leur comportement asymptotique. Ainsi, nous faisons reference aux recents resultats sur la convergence proposes par gunter et fondes sur l'inhomogeneite du processus markovien genere par un algorithme genetique canonique. Nous montrons qu'une adaptation judicieuse des algorithmes genetiques a la problematique de la multidimensional scaling concourre a l'amelioration nette de la qualite numerique des solutions. Nous etudions en particulier la question du croisement, probleme sous-jacent au codage considere. Nos chromosomes sont codes au moyen des composantes reelles dont est constitue la configuration et nous proposons un operateur de croisement synthetique original conduisant a l'acceleration de l'algorithme. Les comparaisons avec d'autres algorithmes sont effectuees. Notre algorithme est moins rapide mais produit de meilleurs resultats. Toutefois, la complexite temporelle est assez importante des lors qu'il s'agit de traiter des donnees de grande taille. En outre, notre approche apporte une solution elegante aux problemes poses dans le passe par la necessite d'activer les logiciels actuels de la multidimensional scaling avec plusieurs configurations initiales suffisamment distinctes. C'est ainsi qu'en prenant en consideration certaines proprietes inherentes aux algorithmes genetiques, nous proposons une strategie efficace d'hybridation avec des algorithmes de descente classiques. Nous etudions ensuite la parallelisation de nos algorithmes et des versions paralleles orientes architecture multiprocesseur a memoire distribuee sont proposees. Nous obtenons un speed-up presque lineaire. Notre methode fait l'objet d'une application reelle en biologie moleculaire et plus particulierement sur des proteines dont on possede les structures primaires. Pour le calcul des dissimilarites, nous utilisons des quantites d'information associes a des indices probabilistes issus de la methode de classification avl (analyse par la vraisemblance du lien) et qui presente l'avantage d'avoir eu un bon comportement dans la classification hierarchique des proteines. Enfin, nous presentons des resultats issus d'une implantation sur la machine multi-processeur paragon d'intel