MÉTHODES

1. Definition: Linguistique de corpus et TAL

La communauté TAL (Traitement Automatique des Langues), depuis ses débuts, offre des approches nouvelles à la linguistique de corpus qui traditionnellement s’appuyait sur des méthodes et des objectifs plus classiques. En effet, la linguistique de corpus est souvent considérée comme relevant majoritairement d'une perspective TAL car elle traite de grandes quantités de données textuelles sur support électronique9. Les avantages de ce type de traitement automatique résident dans la rapidité du traitement des données et dans la fiabilité de ces traitements.

(Arbach, Najib (2015). « Constitution d’un corpus oral de FLE : enjeux théoriques et méthodologiques ». In Linguistique, Université Rennes.)

2. Sélection de textes

Pour nos quatre langues de travail, nous avons selectioné les textes selon la méthodologie suivante:

Le français

Pour le corpus de français, nous avons choisi principalement les articles de presse de différentes types et de blog spécialisé pour avoir une point de vue plus variée. Nous avons aussi fait attention de bien prendre en compte la communauté féminine dans le milieu de travail, il y a donc aussi des presses d'orientation féminine.

L’anglais

Nous avions hésité entre l’anglais américain et l’anglais britanique. Le choix était facilement fait car l’accès à la presse états-unienne (de qualité) en ligne était limité : payant, sous condition d’enregistrement, etc, alors que l’accès est assez libre au Royaume-Uni. Nous avons choisi les articles de The Guardian, The Telegraph et Independent.

Le chinois

Pour construire le corpus chinois, il est évident que le chinois (simplifié) le plus représentatif et le plus vivant est en Chine continentale, mais la recherche via Google n'est malheureusement pas très pertinente, puisqu'on utilise un autre moteur de recherche 'Baidu' en raison de la censure sur Google en Chine continental. Nous avons donc choisi 15% d'articles via la recherche Google et puis 85% d'articles via la recherche Baidu, et nous avons choisi principalement des articles de presse et de blog spécialisé.

Le filipino

Les journaux aux Philippines étant publiés en anglais, il était difficile de collecter des données de qualité. Pour cette raison, les articles rassemblés proviennent d'un mélange de petits publications, de reseaux sociaux, de forums et de blogs personnels.

3. Langage de script: BASH

L'étape la plus technique était la rédaction du script en bash et en html. C'est le coeur du projet qui sert à extraire les données textuelles contenues dans les pages web. Le script fonctionne par étapes: il prend en compte différents cas de figure pour aspirer correctement la page web ciblée. C'est ce programme qui permet de créer un tableau (un pour chaque langue) contenant les liens des urls, les pages webs aspirées, les conversions d'encodage quand initialement il n'est pas en utf-8.

4. Traitement des données

4.1 Wordcloud

Nous avons utilisé le site NuagesDeMots.fr pour construire des word clouds.

4.2 Python pour la segmentation de textes chinois

La segmentation de textes chinois joue un rôle important dans le traitement automatique de la langue chinoise. Pour plus d'information sur le traitement du chinois, veuillez consulter notre blog ;) https://talbonheur.wordpress.com/2018/12/28/traitement-du-corpus-chinois/

4.3 minigrepmultilingue

Pour des bigrammes, context html, etc

4.4 iTrameur

Nous avons utilisé l'iTrameur pour traiter les données, analyser le corpus et présenter les résultats.

Pour plus d'information concernant l'iTrameur, veuillez consulter le site officiel.

5. Construction de site