Thèse soutenue

Workflows centrés sur les données pour l'application crowdsourcing

FR  |  
EN
Auteur / Autrice : Rituraj Singh
Direction : Loïc Hélouët
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/04/2021
Etablissement(s) : Rennes 1
Ecole(s) doctorale(s) : MATHSTIC
Partenaire(s) de recherche : Laboratoire : IRISA - SUMO
Jury : Président / Présidente : Stefan Haar
Examinateurs / Examinatrices : Albert Benveniste, Marco Montali, Zoltán Miklós
Rapporteurs / Rapporteuses : Salima Benbernou, Farouk Toumani

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Le crowdsourcing utilise l'intelligence humaine pour résoudre des tâches difficiles à réaliser par des machines. Les plateformes de crowdsourcing existantes permettent de réaliser des lots de micro-tâches très simples. Cependant, de nombreux processus sont des tâches complexes, qui nécessitent d'enchaîner la collecte de données, des prétraitements, de l'analyse de données, de la synthèse, etc. Dans cette thèse, nous étudions comment spécifier ces tâches complexes, pour les faire réaliser par des plate-formes de crowdsourcing. Nous proposons tout d'abord le modèle des workflows complexes qui fournit des constructions de haut niveau pour décrire une tâche complexe comme une orchestrations d'un ensemble de tâches simples. Nous fournissons des algorithmes permettant de vérifier la terminaison et la correction de ces workflows pour un sous-ensemble du langage (ces questions étant indécidables dans le cas général). Un des inconvénients du crowdsourcing est le fait que de mauvaises réponses peuvent être produites par les agents humains. Pour pallier à ce problème, il est habituel de répliquer les tâches, puis d'aggréger les résultats pour fiabiliser une réponse finale. La réplication augmente la qualité des données, mais elle est coûteuse. Nous proposons des techniques d'agrégation de résultats dans lesquelles l’agrégation est réalisée à partir d'algorithmes d'Expectation Maximization, et la réplication est faite à la demande en tenant compte de la confiance estimée sur les agrégats. Les résultat expérimentaux montrent que ces techniques permettent de regrouper les réponses tout en obtenant un bon compromis coût-fiabilité pour des lots de micro-tâches, mais aussi pour des tâches complexes.