Thèse soutenue

Indexation et recherche des documents code source basées sur une caractérisation structuro-sémantique : application à la détection de plagiats
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Mohammed Amine Ouddan
Direction : Christian FluhrHassane Essafi
Type : Thèse de doctorat
Discipline(s) : Information scientifique et technique. Informatique
Date : Soutenance en 2007
Etablissement(s) : Université de Marne-la-Vallée (1991-2019)

Mots clés

FR

Résumé

FR  |  
EN

La caractérisation du contenu d’un code source est une tâche très complexe en raison de la similitude qui existe entre les projets informatiques. Les différentes techniques de plagiat qui sont appliqués sur ce type de documents rendent la tâche de détection des plagiats de plus en plus difficile. Nous proposons un système multilangages de détection de plagiats basé sur une approche de caractérisation à deux niveaux, le premier niveau se porte sur l’aspect syntaxique du code permettant une caractérisation structurelle du code, et le second niveau concerne son aspect fonctionnel permettant une caractérisation sémantique. Notre approche se base sur la notion de Grammaire à Actions concrétisée par un module permettant d’accéder au contenu structurel et sémantique du code par le biais de la grammaire du langage dont ce code est écrit. Les actions de ce module consistent à traduire un code du langage source vers un langage de caractérisation où le code est représenté par un ensemble de séquences dites caractéristiques. Dans le premier niveau de caractérisation nous parlons de séquences structurelles et dans le second niveau nous parlons de séquences génétiques. Nous appliquons par la suite les techniques d’alignement de séquences pour mesurer le taux de similarité entre deux séquences caractéristiques, qui est considéré comme une abstraction au taux de plagiat entre les codes caractérisés