Détection automatisée du plagiat

La détection du plagiat est devenue quasiment systématique dans les travaux universitaires qui supposent des recherches et des développements personnels.

Elle se fait désormais le plus souvent par le biais de logiciels de détection du plagiat, ce qui explique l’exigence de plus en plus généralisée d’un dépôt d’une copie électronique des travaux universitaires dans un espace prévu à cet effet.

Le mode de fonctionnement de ces logiciels est relativement simple : ils établissent par balayage une comparaison du contenu du travail soumis :

  • avec le contenu de la toile ;
  • avec le contenu des autres travaux soumis (pour un même cours, pour une même université…).

Ils rendent leur verdict sous la forme d’un pourcentage de points communs trouvés entre le travail soumis et les autres sources répertoriées.

Ces logiciels ne traitent que des sources textuelles ; le plagiat d’idée, le plagiat d’images leur échappe généralement. La détection du plagiat textuel est par ailleurs entravée lorsqu’il y a traduction de la source plagiée – seuls certains logiciels de détection du plagiat sont multilingues.

Les résultats d’une détection automatisée du plagiat doivent nécessairement faire l’objet d’une interprétation, notamment en ce qu’ils peuvent livrer des faux négatifs et des faux positifs :

  • La comparaison ne se faisant qu’avec le contenu disponible en ligne, certaines sources, parfois importantes, échappent au contrôle. Mais de telles sources sont généralement connues de l’évaluateur, qui pourra à la lecture procéder à une détection du pillage intellectuel d’une manière parfois plus efficace que le logiciel, qui peut avoir rendu un verdict négatif pour un travail plagié. 

Exemple de travail livrant des faux négatifs
Il est d’usage dans les travaux universitaires, notamment en sciences exactes, d’exiger que les sources consultées rendent compte de l’état le plus récent des recherches dans un domaine. Or ce sont généralement les sources les plus récentes qui échappent au crible du logiciel détecteur de plagiat, car elles ne sont pas visibles sur la toile.

  • Dans certains travaux à caractère philologique ou littéraire, où l’on part de données linguistiques attestées, il est normal, voire légitime, que le pourcentage de points communs avec le contenu de la toile soit élevé, sans que l’on soit pour autant autorisé à parler de plagiat ; passer un travail de ce type au détecteur de plagiat est alors totalement inefficace, le verdict étant systématiquement un faux positif.

Exemple de travail livrant des faux positifs
Dans un travail qui consiste en la constitution d’un corpus des textes des quatrièmes de couverture des ouvrages d’un éditeur, un verdict de 100 % d’éléments communs avec la toile est un résultat attendu dans la mesure où les éditeurs et tous les sites marchands vendant des ouvrages tendent désormais à mettre ce type d’information en ligne.

  • Alors qu’une machine ou un logiciel considérera qu’il y a plagiat dès qu’il y a 25 % d’éléments communs entre un fichier soumis et la toile, dans certains types de travaux, c’est au contraire la proximité des 100 % qui sera un gage de qualité.

Exemples de travail livrant autant de faux positifs que de faux négatifs
A. Dans un travail qui consiste en la constitution d’un corpus de phrases issues de la presse écrite, un verdict de 100 % d’éléments communs avec la toile sera plus perçu comme le gage d’un travail bien fait et d’une bonne capacité à transcrire le corpus que du plagiat. En revanche, un verdict de 25 % de points communs avec la toile peut dénoncer un corpus « fabriqué », c’est-à-dire ne répondant pas à la consigne, voire dans certains cas un corpus « trafiqué » et peut alors être révélateur d’une pratique frauduleuse.
B. Dans la partie bibliographique d’un travail, un verdict de 100 % d’éléments communs avec la toile permettra d’établir que les références des sources ont été correctement transcrites, d’une part, et que les références fournies n’ont pas été inventées, d’autre part. Pour cette raison, certains demandent d’ailleurs que les références bibliographiques soient groupées dans un fichier séparé du travail avant leur soumission au logiciel de détection du plagiat, dont elles faussent immanquablement les statistiques.

Si le logiciel permet de mesurer le caractère personnel du travail, d’une part, et la fiabilité des références fournies, d’autre part, il ne permet pas de détecter la concordance ou la non-concordance entre le contenu du travail et les sources référencées. En d’autres termes, il ne permet pas de déterminer si les éléments qu’un auteur affirme siens lui sont effectivement propres, ni si les références qu’il associe à certains contenus sont ou non licites. Des cas patents de plagiat frauduleux peuvent ainsi ne pas être détectés.

Exemple de travail livrant des faux négatifs
Certains étudiants consultent la traduction d’un ouvrage (pour des raisons parfois pleinement légitimes), tout en renvoyant à la version originale de celui-ci. D’autres consultent un résumé tout en renvoyant à la version intégrale de l’ouvrage. Cette pratique, qui relève du plagiat (faire croire qu’on a lu une source qu’on n’a pas lue), échappe le plus souvent au logiciel de détection du plagiat.

Comme pour toute tâche effectuée par une machine, la détection automatisée du plagiat a ses limites. Elle nécessite une réinterprétation des résultats par l’évaluateur, d’une part, et parfois une lecture complémentaire par l’évaluateur, en vue de détecter les formes du plagiat qui échappent à la machine.

Remarque
Il est important de se souvenir ici qu’il appartient avant tout à l’accusateur d’apporter la preuve qu’il y a plagiat, avant que l’accusé n’ait à apporter la preuve qu’il n’a pas plagié.

Mais non, vous ne vous êtes pas perdu !