ANGLICISME

La vie multilingue des mots sur le web

La vie multilingue du mot "anglicisme" sur le web

Dans le cadre du cours « Programmation et projet encadré 1 » du Master 1 PluriTAL, nous avons mené un projet sur le thème « La vie multilingue des mots sur le web ». Ce projet est l'occasion de mettre en œuvre les connaissances acquises tout au long de ce premier semestre de master TAL.

Nous développons sur ce site internet notre démarche, nos choix, ainsi que les résultats obtenus. Nous avons également créé un blog de travail : y ont été publiées au fur et à mesure les différentes étapes par lesquelles nous sommes passées.

Pourquoi "anglicisme" ?

On utilise beaucoup de mots, expressions et tournures provenant de la langue anglaise. On les appelle des anglicismes. Ce phénomène devient de plus en plus important : nous trouvons de plus en plus d'anglicismes dans notre vocabulaire, et même dans le dictionnaire.

image cartoon anglicismes

Bien sûr, ce n'est pas seulement le cas de la langue française, mais celui de beaucoup d'autres langues. Ce phénomène n'est pas non plus nouveau, les langues en contact s'influencent depuis toujours. Mais, s'il s'agit bien d'une évolution de la langue, tous les locuteurs n'ont pas la même opinion quant à l'emploi fréquent d'anglicismes.

La langue évolue, certes, mais qu'en pensent les gens sur le web ? C'est ce à quoi nous essayons de répondre à travers cette étude.

Objectif

Notre objectif est de récolter des URLS sur le sujet, et d'étudier l'environnement du mot 'anglicisme' et de ses équivalents en italien et arabe. Ainsi, de part notre analyse, nous espérons repérer une tendance, et rendre compte d'une opinion générale des locuteurs quant à l'emploi d'anglicismes.

Etapes

  1. Choix du mot à étudier et des langues de travail
  2. Comme détaillé ci-dessus, nous avons opté pour le mot « anglicisme ».
    Nous travaillons sur trois langues : le français, l'italien et l'arabe.
    Ainsi, nous cherchons à analyser les environnements des motifs suivants :

    • français :
      • anglicisme
      • anglicismes
    • italien :
      • anglicismo
      • anglicismi
      • inglesismo
      • inglesismi
      • anglismo
      • anglismi
    • arabe :
      • الدخيل
      • الانجليزي
      • نكلزة

  3. Constitution de listes d'URLs contenant le mot choisi
  4. image anglicisme sur le web Il s'agit de récolter des URLs contenant les mots choisis. Nous collectons les URLs d'articles de journaux et de blogs sérieux. Pour cela, plusieurs méthodes s'offrent à nous :

    • La récupération « manuelle » : naviguer sur Internet et récupérer 1 par 1 chaque URL.
    • L’utilisation de la commande lynx -dump, qui permet d’automatiser la récupération de X pages d’une recherche Google.

    Nous avons opté pour la première option. Cette méthode est plus fastidieuse, car elle nécessite de naviguer nous-mêmes sur internet. En revanche, nous sommes sûres que les URLs récupérées sont effectivement pertinentes pour notre projet, car nous avons vérifié le contenu de chacune des pages web. Ceci n'aurait pas été le cas si nous avions choisi la récupération automatique d'URL. En effet, on évite de cette manière des URLs de sites webs tels que reverso.fr, linguee.fr, youtube.com, ou encore mots-croises.tazzaz.com.

  5. Elaboration d'un script bash qui traite des URLs
  6. image anglicisme script Nous avons élaboré, avec l'aide de nos professeurs M. Fleury et M. Daube, le script permettant le traitement de nos URLs.
    On récupère ainsi un tas de données qui nous serviront pour notre analyse, notamment le contenu textuel dumpé de chaque page web, ainsi que tous les contextes dans lesquels apparaît notre motif.
    Vous retrouverez notre script, dans son intégralité, dans l'onglet 'SCRIPT'.

  7. Analyse textométrique des résultats avec iTrameur
  8. image anglicisme iTrameur Nos corpus sont constitués des fichiers dumps et contextes obtenus après exécution de notre script.
    Nous utilisons iTrameur : il s'agit de la version en ligne du logiciel d’analyse textométrique de données Trameur.
    D'une part, nous observons les cooccurrents de notre motif,
    D'autre part, nous nous intéressons au réseau de cooccurrents de tout le corpus de dumps. Ainsi, au regard des attractions lexicales au sein du corpus, nous devrions voir émerger du corpus une ou plusieurs thématiques principales. L'idée est ici de se faire une idée générale quant à l'ensemble de notre corpus.
    Vous retrouverez plus de détails sur notre analyse textométrique dans l'onglet 'TRAMEUR'.

  9. Création de nuages de mots pour visualiser les résultats
  10. image anglicisme nuages En plus de l'analyse textométrique, nous avons généré des nuages de mots.
    Les nuages sont générés à partir de la fréquence des mots du corpus. Certes, les résultats ne sont ici pas aussi précis que ce que nous permet d'obtenir le trameur, mais les nuages de mots ont l'avantage d'être représentés sous une forme sympathique, qui nous permet de repérer en un clin d'oeil les mots clés de chacun de nos corpus.
    Vous retrouverez nos trois nuages de mots dans l'onglet 'NUAGES'.