Thèse soutenue

Développement de méthodes chimiométriques pour le traitement des données massives
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Maxime Metz
Direction : Jean-Michel RogerMatthieu Lesnoff
Type : Thèse de doctorat
Discipline(s) : Génie des procédés
Date : Soutenance le 26/11/2021
Etablissement(s) : Montpellier, SupAgro
Ecole(s) doctorale(s) : GAIA (Montpellier ; École Doctorale ; 2015-...)
Partenaire(s) de recherche : Laboratoire : ITAP Information et Technologie pour les Agro-Procédés INRAE SupAgro Montpellier
Jury : Président / Présidente : Douglas N. Rutledge
Examinateurs / Examinatrices : Jean-Michel Roger, Matthieu Lesnoff, Douglas N. Rutledge, Fédérico Marini, Marina Cocchi, Florent Masseglia, Gilbert Saporta
Rapporteurs / Rapporteuses : Fédérico Marini, Marina Cocchi

Résumé

FR  |  
EN

L'analyse des données chimiques, communément appelée chimiométrie, est utilisée en agronomie pour répondre à diverses questions telles que l'étude des sols, des fourrages ou le phénotypage. Aujourd'hui, une grande quantité de données peut être générée et les chimiométriciens doivent être capables de les analyser. Les outils habituels ne sont pas encore capables de traiter efficacement ces données. Des outils dans le domaine du big-data ont été développés afin de permettre de traiter des bases de données volumineuses. Ces outils n'ont pas encore été évalués pour la chimiométrie. L'objectif de cette thèse est donc d'étudier le traitement de données massives pour la chimiométrie. Pour ce faire, trois axes de recherche ont été étudiés. Le premier axe de recherche consiste à étudier comment permettre le traitement de données massives par des méthodes locales. Les méthodes locales calibrent un modèle par individu à prédire sur ses plus proches voisins. Le deuxième axe de recherche consiste à étudier la pertinence d'un individu au sein d'un modèle local. Le troisième axe consiste à combiner les idées développées dans les deux premiers axes pour rendre les méthodes performantes pour la chimiométrie. Pour répondre au premier axe, une nouvelle méthode nommée parSketch-PLS a été étudiée et développée. Pour aborder le deuxième axe, une méthode appelée RoBoost-PLSR a été développée. Pour étudier le troisième axe, deux prémices de méthodes ont été proposées. Les résultats associés à ces développements ont mis en évidence l'intérêt d'adapter les outils de traitement de données massives à la chimiométrie. En effet, les outils utilisés pour le traitement des données massives ne reposent pas forcément sur les mêmes connaissances que les outils développés pour la chimiométrie. Cela peut donc conduire à une diminution de la capacité prédictive des méthodes chimiométriques. Cette thèse met donc en avant l'intérêt de rapprocher ces deux domaines afin de proposer un ensemble de méthodes et d'outils de traitement de données massives chimique.