Analyse

Notre analyse se fonde sur les résultats obtenus avec le Trameur, ainsi que les nuages de mots.

Corpus anglais (iTrameur, nuages)

Le corpus anglophone est constitué d'URLs de sites britanniques et irlandais, et peut être divisé en trois types de sites :

Plus de détails sur l'établissement du corpus ici.

Contextes

On va d'abord s'intéresser au résultats de notre travail sur le fichier concaténé de contextes. Pour rappel, ce fichier est une concaténation de tous les fichiers contexte "simples" (c'est-à-dire non obtenus avec minigrep) du tableau de liens. Chaque contexte consiste en la ligne contenant le mot recherché, précédé et suivi de deux lignes. L'intérêt d'analyser les contextes spécifiquement est donc d'essayer de repérer les mots et expressions composées contenant le terme "plagiat". Et en effet, on retrouve bien plusieurs expressions plus ou moins figées qui donnent une indication de ce qu'on trouvera en analysant le corpus concaténé :

Dump

L'analyse du corpus concaténé permet de distinguer quelques grandes tendances, qu'on peut essayer d'analyser plus en détail en utilisant le Trameur sur d'autres mots fréquents du corpus. D'abord, on peut voir que le Royaume-Uni se perçoit comme un pays à la pointe de la lutte contre le plagiat universitaire. Ce combat est également envisagé de façon très technique : "Turnitin", le nom du logiciel de détection du plagiat le plus connu et aussi le plus controversé des universités britanniques, est un des mots les plus courants dans le corpus. En plus des mots vus plus haut dans les contextes, on retrouve "statistics", "scans", "detected"... Ce point de vue se confirme si on recherche les cooccurrences du mot "essay" (devoir, dissertation):

Ce graphe révèle l'importance de l'industrie des "essay mills" (littéralement moulins à dissertation), des sites qui fournissent des dissertations et autres devoirs aux étudiants pour une somme plus ou moins modeste. La rhétorique de ces sites se concentre autour des services qu'ils fournissent ("service", "services", "provide") à la demande ("order", "custom").

Pour les universités et autres corps enseignants, les cas de plagiat sont souvent considérés comme une atteinte à la réputation de l'établissement et une preuve d'un manque de régulation ("investigate", "serious"), peu importe la forme sous laquelle il se présente ("accidental", "deliberate", "collusion", "types"). Si on se concentre sur le mot "academic" (universitaire) :

On peut voir que des mots à forte connotation morale/éthique se glissent dans le graphe : "integrity", "misconduct", "dishonesty", "appropriate"... Ce qui nous mène à notre dernière remarque, sur l'aspect fortement moralisant du traitement des cas de plagiat, qu'ils soit commis par une célébrité (on notera les quelques cas qui apparaissent dans le réseau de cooccurrences obtenu avec une expression régulière) ou dans un milieu universitaire. Soit le graphe pour le terme "cheating" (triche/tricher) :

Corpus chinois (iTrameur, nuages)

Autour de notre mot cible chinois ”抄袭“(plagiat), on peux trouver les mots suivants: “作品” (ouvrage), “论文”(mémoire/thèse), “使用”(utiliser/usage) , “学术”(académie), “他人”(d’autres), “认定”(conclure), “减少”(diminuer), “决定”(décider), “怕”(peur), “是否” (si/oui ou non),etc.

Selon les nuages des mots qu’on a obtenu, on peux aussi trouver d’autres mots comme “检测”(détecter), “原创”(orginalité), “版权”(copyright), “反”(contre), “媒体”(média), “技术”(technique), etc.

Le mot “论文”(mémoire/thèse) le plus fréquemment apparu dans les contextes (375 fois co-occurent) nous dirige vers la domaine académique, dans laquelle on dirait le plagiat est très grave. On a noté qu’il y a aussi des mots concernant le jugement, la décision et les droits des autres. De plus, des verbes liées avec le plagiat comme “认定”(conclure),减少”(diminuer),“检测”(détecter), “技术”(technique), a une grande tendance à chercher des solutions contre cette phénomène par des outils technologiques, ce qui est un peu différente que celle qu’on obtient des corpus anglais et français.

Corpus français (iTrameur, nuages)

Lors de l’étude du corpus constitué d’URL françaises, on remarque assez facilement un vocabulaire plutôt tourné vers le domaine de l’université. Dans les premiers termes cooccurrents, on a en effet « universitaire », « thèse », « étudiant », voire « projet » qui peut également être rattaché au monde du travail et de l’entreprise. Au prémisses du projet et lors de la constitution du corpus, la remarque s’était déjà faite de savoir si nous n’allions tomber que sur ce genre de sites : attention au plagiat dans les universités ! Stop à la triche en examen, un nouveau logiciel est sorti ! Et il se trouve que les autres termes ressortant de notre étude sont « Ephorus », « Compilatio » et « gratuit ». Je trouve intéressant de me tourner vers ces termes car je ne pensais pas les trouver en nombre. Il s’agit là de nom de logiciel anti-plagiat pour éviter la triche aux examens, ils sont donc très présents dans les corpus universitaires. On remarquera que « gratuit » n’appartient pas au domaine des universités et peut tout à fait s’être glissé tout au long des pages et avoir défini autre chose que ces logiciels anti-plagiat, comme des annonces de type « cliquez-ici c’est gratuit » mais les études des contextes enlèvent ce petit désagrément.

Enfin, le mot gagnant sur tous les plans pour le terme plagiat n’en est pas vraiment un : il s’agit du suffixe « anti » puisque la plupart des sites universitaires prônaient les logiciels « anti »-plagiat. Je dois avouer être un peu déçue des résultats de l’étude : lors de la constitution de nos corpus, nous avions prédit ces résultats. Nous avons donc modifié notre corpus pour n’avoir qu’un tier du corpus parlant de plagiat en université, un tier parlant de plagiat d’actualité (en musique par exemple) et un tier en plagiat divers. Sur 50 URLS, je ne pensais pas que l’université serait aussi présente malgré tout. Comme quoi !

Qui sommes-nous ?

Plurital

Nous avons conduit ce projet dans le cadre de notre première année de master en traitement automatique des langues, en coordination entre l'université Paris 10 Nanterre, Paris 3 la Sorbonne, et l'Inalco.

Enseignants

La réalisation du projet a été orientée au cours du semestre par :

  • Serge Fleury (Paris 3)
  • Jean-Michel Daube (Inalco)

Etudiantes

Nous sommes trois étudiantes :

  • Cassandre Bâton (Paris 10, français)
  • Milena Chaîne (Inalco, anglais)
  • Qing Xue (Paris 10, chinois)

Contact

Pour contacter les étudiantes en charge du projet :