Méthode

Délimitation du sujet

Expressions choisies

Au début, nous avons choisi dans chaque langue deux expressions, l’une le plus souvent utilisée, et l’autre aussi fonctionnable, qui pourrait avoir le sens un peu différent que le premier, mais correspond toujours à "train à grande vitesse".

  • En français : TGV ; train à grande vitesse
  • En chinois : 高铁,动车
  • En anglais : high-speed rail
  • En allemand : ICE / Intercity Express ; Hochgeschwindigkeitsverkehr

Pourtant, pendant la recherche nous nous rendons compte que quand on lançait des recherches sur la deuxième, l'article contient presque toujours la première expression, soit disant il n’est pas possible que l’on n’emploie que l’expression rare dans l’article et que l’on ne peut pas le trouver avec celle qui est fréquente. Ainsi, nous avons décidé à travailler sur :

  • En français : TGV
  • En chinois : 高铁
  • En anglais : high-speed rail
  • En allemand : ICE

Cadre du temps

Nous traiterons les corpus présentés du début 2014 jusqu’à fin octobre 2019 (01/01/2014-31/10/2019), en concernant l’accomplissement de construction des réseaux, le déroulement de la dernière vague et une quantité appropriée de données.

Composition du corpus

Dans le but de trouver les actualités et les développement de TGV, nous ferions mieux de chercher les informations dans les nouvelles. Nous avons choisi respectivement trois journaux nationales de presses des pays qui parlent ces langues.

Français中文EnglishDeutsch
Le Monde 新华网 Daily Mail Bild
Le Figaro 人民网 The Guardian Frankfurter Allgemeine Zeitung
La Libération 中国青年报 The Independent Die Welt

Nous lancions les recherches par période d'une demi-année, et nous avons pris les 6 premiers URLs à chaque fois, pour trouver l'équilibre entre le fils du temps et la pertinence.
Par exemple, la première fois que nous avons travaillé sur www.lemonde.fr, nous avons pris les 6 premiers URLs du mot-clé « TGV » dans le cadre du temps de 01/01/2014 au 30/06/2014, avec l’ordre en pertinence. Donc nous avons 72 URLs pour chaque presse, et ainsi 216 pour chaque langue.



Outils

Système

  • Bash Ubuntu sous Windows 10
  • Machine virtuelle Ubuntu 18.04

Pour la plupart de travail, nous avons réalisé avec Bash Ubuntu. Mais comme nous sommes rentrées en Chine pendant les vacances, nous avons rencontré un blocage de certains sites. Nous sommes ainsi obligées de travailler avec la machine virtuelle pour que le VPN puisse fonctionner.

Langage du script

  • Bash shell
  • Python
  • HTML+CSS

Pré-traitement

  • La segmentation de textes chinois : Pkuseg
  • Il est créé par une laboratoire de l’université de Pékin, une des écoles supérieurs les plus renommées en Chine.
    C’est un outil qui est né au mois de mars en 2019, et nous avons fait ce projet à la fin de cette année. Il est intéressant pour nous de travailler avec un outil nouvelle qui a fait assez d’améliorations pendant plus de six mois.

    En plus, différent que les autres Tokenizer du chinois, il possède de différentes modèles : « news », « web », « medicine », « tourism » et « mixed ». Puisque ce que notre corpus comprend sont de pures nouvelles, nous pensons qu’il s’adapte mieux au notre projet.

    Pour plus d’info sur cet outil, veuillez consulter leur page Github

  • MINIGREP MULTILINGUE en perl
  • Pour plus d’info sur cet outil, veuillez consulter la site.

Analyse

  • iTrameur

Pour plus d’info sur cet outil, veuillez consulter la site officielle.