Description et sélection de données en grande dimension

par Aurélie Beal

Thèse de doctorat en Sciences chimiques

Sous la direction de Michelle Sergent et de Magalie Claeys-Bruno.

Soutenue le 24-02-2015

à Aix-Marseille , dans le cadre de Ecole Doctorale Sciences Chimiques (Marseille) .

Le président du jury était Thierry Bastogne.

Le jury était composé de Michelle Sergent, Magalie Claeys-Bruno, Claire Bordes, Laurence Charles.

Les rapporteurs étaient Thierry Bastogne, Claire Bordes.


  • Résumé

    L'évolution des technologies actuelles permet de traiter un grand nombre d'expériences (ou de simulations) et d'envisager un nombre important de paramètres. Cette situation conduit à des matrices de grande, voire très grande, dimension et nécessite le développement de nouveaux outils pour évaluer et visualiser ces données et, le cas échéant, en réduire la dimension. L'évaluation de la qualité de l'information apportée par l'ensemble de points constituant une base de données ou un plan d'expériences peut se faire au travers de critères basés sur des calculs de distance, qui renseigneront sur l'uniformité de la répartition dans l'espace multidimensionnel. Parmi les méthodes de visualisation, l'Analyse en Composantes Curvilignes a l'avantage de projeter des données en grande dimension dans un espace bidimensionnel en préservant la topologie locale, ce qui peut aider à détecter des amas de points ou des zones lacunaires. La réduction de dimension s'appuie sur une sélection judicieuse de sous-ensembles de points ou de variables, via des algorithmes. Les performances de ces méthodes ont été évaluées sur des cas d'étude issus des études QSAR, de la spectroscopie et de la simulation numérique.

  • Titre traduit

    Description and selection of high-dimensional data


  • Résumé

    Technological progress has now made many experiments (or simulations) possible, along with taking into account a large number of parameters, which result in (very) high-dimensional matrix requiring the development of new tools to assess and visualize the data and, if necessary, to reduce the dimension. The quality of the information provided by all points of a database or an experimental design can be assessed using criteria based on distances that will inform about the uniformity of repartition in a multidimensional space. Among the visualization methods, Curvilinear Component Analysis has the advantage of projecting high-dimensional data in a two-dimensional space with respect to the local topology. This also enables the detection of clusters of points or gaps. The dimensional reduction is based on a judicious selection of subsets of points or variables, via accurate algorithms. The performance of these methods was assessed on case studies of QSAR, spectroscopy and numeric simulation.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Informations

  • Détails : 1 vol. (232 p.)
  • Annexes : Bibliographie p. 227-232

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université d'Aix-Marseille (Marseille. Saint-Jérôme). Service commun de la documentation. Bibliothèque de sciences - Inspé.
  • Disponible pour le PEB
  • Cote : 200085359
  • Bibliothèque : Université d'Aix-Marseille. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.