Démarche

Choix des termes

L'objectif de notre projet étant de traiter des données multilingues, à travers la réalisation d'une chaîne de traitement textuel à partir de l'écriture de divers scripts lors de première étape, nous avons choisi la séquence de mot sur laquelle construire notre projet. Le choix s'est effectué à partir des critères suivants :

- Elle doit être traduisible facilement en français, en anglais, en chinois et en turc.

- Afin d'obtenir un corpus multilingue cohérent, la sémantique de l'expression choisie doit être la même dans ces quatre langues.

- Les corpus de texte sur ce sujet doivent être faciles à trouver sur le web libre. Ils doivent aussi être de même type quelle que soit la langue choisie.

- Le sujet étant large, nous avons choisi de nous limiter à l'actualité de moins d'un an.

En prenant en compte ces critères, nous avons rejeté notre premier choix qui était la "sûreté nucléaire", voyant que du point de vue linguistique et sémantique, le sens littéral de ce terme n'est pas le même entre le français et les autres langues. En effet, dans les autres langues, la traduction littérale est "sécurité nucléaire", notion plus restrictive du point de vue français. Par conséquent, notre choix final s'est porté sur "arme nucléaire", traduit de façon identique dans les trois autres langues. Ce sujet est aussi une actualité brûlante dans la presse.

Lors de l'analyse, nous observerons si les mots associés au terme choisi sont les mêmes d'une langue à l'autre.

Récolte d'URLs

Nous avons constitué le corpus à partir des articles de presse, en identifiant les presses principales de la France, du Canada, des Etats-Unis, de la Grande Bretagne, de la Chine et de la Turquie. Malheureusement, certains textes étaient limités par des droits d'abonnement d'éditeurs privés. Autant que possible, nous avons essayé d'éviter les contenus sous abonnement, tout en ne pouvant maîtriser la politique aléatoire de l'éditeur d'ouvrir et fermer l'accès au contenu.

Le sujet étant large, nous avons choisi de nous limiter à l'actualité de moins d'un an.

Pour constituer le corpus textuel à analyser, nous avons découvert la programmation Bash et avons écrit le script avec Bash. Deux programmes Perl ont aussi été incorporés.

Retour en haut