Présentation du travail.

Définitions

Voici les définitions standard pour chacun des mots étudiés :

Français : politicien
Substantif : personne qui s'occupe de politique à titre professionnel ou non.
Adjectif : propre à une politique intéressée, souvent limitée à des considérations de stratégie electorale et d'intérêt partisans. (péjoratif)
Anglais : politician
Substantif : a) one who is actively involved in politics.
Substantif : b) one who holds or seeks a political office.
Substantif : one who seeks a personal or partisan gain, often by scheming or maneuvering. (péjoratif)
Substantif : on who is skilled or experienced in the science or administration of government.
Norvégien : politiker
Substantif : person som driver med politikk
Finnois : Poliitikko
Substantif : Poliitikko on henkilö, joka on aktiivisesti mukana poliittisessa toiminnassa

Le sens dénotatif de chacun de ces mots est le même dans toutes les langues. Cependant, on notera une connotation péjorative présente en anglais et en français, mais pas en norvégien, ni en finnois.

Cette différence de connotation provoque-t-elle, dans les articles de presse, des différences notables dans le vocabulaire employé en conjonction avec le mot "politicien" et ses pendants dans les autres langues ?

Notre Corpus

Sélection des URLS

Une fois déterminés les mots auxquels nous allions nous intéresser, l'étape suivante consistait à constituer un corpus suffisamment grand pour pouvoir tirer des conclusions générales. Nous avons tenté de sélectionner des textes raisonnablement fouillés, principalement des articles de journaux régionaux et nationaux. Un problème auquel nous avons été confrontés est la rareté relative des articles exploitables en finnois et en norvégien, comparée à l'abondance des exemples en anglais et français.

Nous avons réuni pour chaque langue une trentaine d'URLs.

Méthodologie

Paradigmes et expressions régulières

Une fois recueilli le corpus, il est nécessaire de faire des choix dans la façon dont on va le traiter. En effet, il faut pouvoir repérer le maximum de formes intéressantes en évitant de récupérer trop de déchets. Le filtrage est fait par le script au moyen d'expressions régulières qui doivent ainsi récupérer des formes correspondant à toutes les formes de chacun des paradigmes des mots employés.

Ces paradigmes sont très différents suivant les langues : l'anglais possède deux formes, alors que le finnois, lui, en compte 26 !

Afficher les paradigmes

Paradigmes complets

Finnois
Cas Singulier Pluriel
Nominatif poliitikko poliitikot
Génitif poliitikon poliitikkojen
Partitif poliitikkoa poliitikkoja
Accusatif poliitikko, poliitikon poliitikot
Inessif poliitikossa poliitikoissa
Élatif poliitikosta poliitikoista
Illatif poliitikkoon poliitikkoihin
Adessif poliitikolla poliitikoilla
Ablatif poliitikolta poliitikoilta
Allatif poliitikolle poliitikoille
Essif poliitikkona poliitikkoina
Translatif poliitikoksi poliitikoiksi
Abessif poliitikotta poliitikoitta
Instructif poliitikoin
Comitatif poliitikkoine
Français
Singulier Pluriel
Masculinpoliticien politiciens
Fémininpoliticienne politiciennes
Norvégien
Singulier Pluriel
Indéfinipolitiker politikere
Définipolitikeren politikerne
Anglais
SingulierPluriel
PoliticianPoliticians

Les expressions régulières présentées dans le cours sont délimitées par des frontières de mot ("\b" dans la syntaxe egrep). Cependant, nous avons décidé de ne pas en faire usage. Nos expressions régulières sont constituées par la forme de base de chacun des mots employés, accommodant simplement le cas particulier du mot finnois, dont la base subit une alternance consonantique, comme suit :

LangueExpression régulière
Anglais"politician"
Français"politicien"
Norvégien"politiker"
Finnois "politikk?o"

L'intérêt de procéder ainsi paraît évident si on considère que délimiter chaque expression régulière par une frontière de mot impliquerait d'inclure dans chacune d'entre elle, sous une forme ou une autre, l'ensemble des terminaisons, ce qui impliquerait une expression régulière nettement plus complexe, donc nettement plus susceptible de comporter des erreurs.

Le choix de ne pas inclure de frontière de mot dans les expressions régulières se justifie d'autre part sur le plan linguistique : 

En effet, les langues sélectionnées tombent à différents endroits du continuum entre langues synthétiques et analytiques. C'est à dire que là où l'anglais écrit « female politician », le français écrit « politicienne », et là où le français écrit « politicien de l'opposition », le finnois écrit « oppositiopoliitikko ». Inclure une frontière de mot dans les expressions régulières empêcherait que les lignes contenant ce mot soient relevées au même titre que les lignes contenant la locution correspondante dans des langues plus analytiques, et il ne serait pas possible de faire une expression régulière incluant tout les préfixes potentiels, car la création de mots ainsi composés, par agglutination, est un processus vivant et productif, aussi bien en finnois qu'en norvégien.

L'inconvénient théorique de ne pas inclure la frontière de mot dans les expressions régulières, c'est de relever des formes parasites, c'est à dire des formes qui contiennent la même chaîne de caractère que le mot étudié, mais sans avoir de lien avec lui.

Ainsi, si nous étudiions le mot "feu", il serait impératif de mettre des frontières de mots, pour éviter de récupérer des mots comme "feutre", "feuler", etc...

Cependant, dans le cas du mot "politicien", on peut affirmer qu'il n'existe vraisemblablement pas de telle forme parasite, ni en anglais, ni en norvégien, ni en finnois.

Dans le cas du français, il existe l'adjectif "politicien". Mais comme il possède exactement la même forme que le substantif correspondant, il est tout bonnement impossible de distinguer l'un de l'autre avec des expressions régulières.

Résultats

Index globaux

Pour chaque langues, nous avons établi des index globaux triant les mots par nombre d'utilisations décroissant dans notre corpus. On constate sans surprise que, pour chaque langue, les premières places sont globalement occupées par des mot-outils.

On remarquera la surreprésentation en finnois du nom "Yle" qui est celui d'un des sites de journaux utilisé, et dont le nom apparaît des dizaines de fois dans la présentation du site. Il est assez probable que la surreprésentation de "uutiset" et de son équivalent "news" ait une origine semblable.

On peut aussi remarquer en finnois le nombre élevé d'occurrences du déictique temporel "nyt" (maintenant, alors, à ce moment).

Français

Norvégien

Finnois

Anglais

Les mots ayant un poids sémantique important sont nettement moins utilisés que les mots outils. La très grande majorité d'entre eux est utilisée moins de 100 fois, voire moins de 50 fois, quelle que soit la langue considérée.

Nuages

Compte tenu de cette surreprésentation des mots-outils dans les statistiques, il est plus intéressant d'employer un outil qui les élimine des résultats. C'est le cas de Wordle, qui crée des "nuages" où la taille de chaque mot est proportionnelle à son nombre d'utilisations, et qui élimine par défaut les mot-outils.

On obtient ainsi les nuages suivants :

Nuage Fr Nuage Fi Nuage No Nuage En
Rapetisser les images

Les nuages sont réalisés à partir des dumps. Les réaliser à partir des fichiers de contexte fait apparaître le mot recherché de façon complètement disproportionnée par rapport aux autres.

Trameur

Les dumps ont ensuite servi à faire des arbres de cooccurence à partir d'un logiciel différent, le Trameur.

Celui-ci permet une analyse textométrique des fichiers texte brut qui lui sont soumis. Parmis ses nombreuses fonctions, nous en avons utilisé une permettant la création d'arbres de cooccurences entre le terme recherché et son contexte direct. (Nous avons ici choisi d'éliminer les mots vides de sens afin de limiter le parasitage)

Les mêmes expressions régulières que ci-dessus ont été utilisées avec une co-fréquence de 2 et un seuil de cooccurence de 4.

L'anglais et le français présentent des arbres de co-occurrence relativement étoffés et utilisables. Un lexique à consonnance médiatique est très présent (principalement de l'image), ainsi qu'un champ lexical propre à l'occupation politique (représentant, débats). La mention de partis politiques est cependant peu faite, laisant à penser que d'autres termes sont utilisés pour ce sujet ou alors que dans ce contexte précis, la mention de partis politiques n'est pas nécessaire.

Français

Cooccurences du trameur Cooccurences du trameur Cooccurences du trameur

On note la présence de mots à consonnance péjorative (médiocrité, fausse, bassement...).

Anglais

Dans les articles anglais en revanche, le péjoratif est moins développé. Des termes dénonciateurs sont également mis à jour, permettant de constater une moindre indifférence des ''politicians'' face à la justice et à la presse.

Cooccurences du trameur

On met ici en évidence un grand nombre de cooccurrences du terme "politician". Nous pouvons voir l'apparition de termes plus descriptifs des sujets politiques , entre autre environment, business ou market.

Cooccurences du trameur

Cooccurences du trameur

Finnois

Compte tenu de la morphologie nettement plus synthétique du finnois, il n'est pas étonnant que les arbres soient plus éclatés, le Trameur traitant chacune des formes du paradigme de façon indépendantes, dont certaines se retrouvent tout simplement isolées :

Cooccurences du trameur Cooccurences du trameur Cooccurences du trameur

Là où le français ou l'anglais mettraient un terme en cooccurrence avec "politicien", ces images montrent, outre différents cas du même mot, des mots composés, des compounds, eux-mêmes déclinés.

Cooccurences du trameur

On voit ici les co-occurrences de « kunnallispoliitikko », soit, plus ou moins, « politicien municipal ». Notons "Turun" (la ville de Turku), "mesenaatti", le mécénat, "liikemies", le marchand ou l'homme d'affaire.

Cooccurences du trameur

On note ici les cooccurrences de la forme de base. Notons la présence de « journalisti », à la fois emprunt au français concurrençant le mot « toimittaja » et nom propre d'un journal finlandais, l'adjectif « nuori » (jeune), et la présence de « politiikassa » soit "en politique". Il est intéressant de noter ce dernier mot, car les mots "politique" et "politics" ne sont a contrario pas présents dans les arbres français et anglais.

Cooccurences du trameur

On voit ici les co-occurrences de « poliitikolle », c'est à dire le même mot au cas allatif singulier ("pour le politicien", "vers le politicien"). On constate qu'elles sont plus nombreuses. Notons entre autre la présence de « talouselämä », "vie économique", puisqu'on le retrouve mal orthographié « talouselama » de l'autre côté, « tasavallan », soit "république" au cas génitif, « auttamisesta » "de l'aide" et « kasvuyritykset », "entreprise de croissance".

Cooccurences du trameur Cooccurences du trameur

Norvégien

Comme en finnois, la possibilité de créer des mots composés aboutit à des formes séparées, plutôt qu'à une co-occurrence de deux termes.

Cooccurences du trameur Cooccurences du trameur

Les termes péjoratifs sont ici tellement peu représentés qu'il n'en apparaît que deux dans les arbres de cooccurence faits. Nous ne nous en occuperons donc pas outre mesure. Cependant les termes critiques tels que « mishandlet » (mal géré) ou « uklok » (imprudent) sont présents, ce qui laisse penser que le sujet est pris de façon critique par la presse, et que les « politikerne » trouvent leur responsabilité engagée par leurs actions et/ou discours, sinon vis-à-vis de la loi, du moins par rapport à la presse.

Cooccurences du trameur Cooccurences du trameur

Il est également possible grace aux graphes de constater que de nombreux noms de lieux sont présent dans les coccurences. Cela montre bien bien l'importance des « politikerne » locaux dans la presse. Nous pouvons donc émettre l'hypothèse que cette dernière est plus concernée par les questions locales qu'en France, où celles-ci ne sont même pas mentionnées dans le corpus étudié.