Renaud Lyabastre et Robert Hall
Université Sorbonne Nouvelle - Paris 3
75005 PARIS
Programmation et Projet Encadré 1
Nous avions commencé notre projet dans l'espoir de découvrir des différences d'état d'esprit à propos de la traduction automatique sur le sites francophones et anglophones.

Par exemple, nous étions à la recherche de la présence de mots "colorés" qui auraient pu nous aider dans notre analyse, comme "échec", "réussite" "marche bien" (et leurs équivalents en anglais bien sûr)...

Pour cela, après avoir préparé nos corpus, nous les avons chargés dans le Trameur et sa version en ligne iTrameur afin de pouvoir les analyser.

Remarque : dans notre script ainsi que lors de notre analyse, les formes sur lesquelles se basent nos recherchent sont "traduction" et "translation" et non "traduction automatique" et "machine translation". Cela est dû au fait que les recherches avec deux mots nous privaient de certains contextes et ne marche pas sur iTrameur. Cependant, comme les corpus viennent de pages traitant de la traduction automatique, nous savons que le mot "traduction" est bien utilisé dans le contexte de la traduction automatique et non de a traduction "classique".

Voici donc les résultats obtenus :

Pour commencer, les résultats avec le français :

Le dictionnaire du corpus :



Nous avons enlevé les mots "traduction" et "automatique" car leur forte présente est ici évidente. Notre intérêt se porte sur les autres mots les plus présents.

Les cooccurences du mot "traduction" :



Nous voyons ainsi qu'il y a beaucoup de mots "techniques" qui ne nous renseignent pas vraiment à propos de l'avis sur la traduction automatique. Les seuls mots qui pourraient nous interesser ici sont "meilleures" et "qualité".

Ensuite, les résultats en anglais :

Le dictionnaire du corpus :



Les cooccurences du mot "translation" :



Encore une fois, nous voyons qu'il y a beaucoup de mots techniques et peu de mots "colorés". Seul "quality", qui fait écho à "qualité" dans le corpus français, pour nous aider dans nos recherches.

Nous nous sommes ensuite attardés sur ces derniers ("qualité" et "quality"), afin de voir s'il pouvaient nous aider dans nos recherches :

Tout d'abord, les contextes et cooccurences de "qualité" :





Puis ceux de "quality" :





Que ce soit pour "qualité" ou "quality", nous sommes confrontés au même problème qu'avec "traduction" et "translation" : trop de mots techniques et surtout pas ou peu de mots "colorés".
Nous remarquons quand même la présence de "bonne" et de "meilleure". Voyons voir leur contexte :





Une nouvelle fois, difficile de s'appuyer sur ces deux mots pour notre analyse, puisque dans un certain nombre de cas, la "bonne qualité" ne s'applique pas à la traduction ou alors se trouve dans une phrase négative (exemple du quatrième contexte) ! Les résultats avec "meilleure" ne sont guère plus concluants, car nous avons trop peu occurences qui elles-mêmes ne sont pas toujours pertinentes pour pouvoir répondre à notre idée de départ...

Conclusion
Malheureusement, il semble que notre corpus ne nous permette pas de vraiment déceler une tendance positive ou négative à propos de la traduction automatique : les résultats sont trop faibles pour pouvoir déterminer quoi que ce soit. Nous ne pouvons pas néanmoins en conclure qu'il n'y a pas de tendances ou de différences entre le monde francophone ou anglophone, juste que les outils utilisés ne sont pas en mesure de les trouver. Cela peut être dû au type de corpus choisi (assez vaste, composé d'articles de presse, critiques, sites d'entreprise). Peut-être aurions-nous eu des résultats plus parlants avec un corpus composé uniquement d'articles de recherche scientifique.