Définitions
Voici les définitions standard pour chacun des mots étudiés :
- Français : politicien
- Substantif : personne qui s'occupe de politique à titre professionnel ou non.
- Adjectif : propre à une politique intéressée, souvent limitée à des considérations de stratégie electorale et d'intérêt partisans. (péjoratif)
- Anglais : politician
- Substantif : a) one who is actively involved in politics.
- Substantif : b) one who holds or seeks a political office.
- Substantif : one who seeks a personal or partisan gain, often by scheming or maneuvering. (péjoratif)
- Substantif : on who is skilled or experienced in the science or administration of government.
- Norvégien : politiker
- Substantif : person som driver med politikk
- Finnois : Poliitikko
- Substantif : Poliitikko on henkilö, joka on aktiivisesti mukana poliittisessa toiminnassa
Le sens dénotatif de chacun de ces mots est le même dans toutes les langues. Cependant, on notera une connotation péjorative présente en anglais et en français, mais pas en norvégien, ni en finnois.
Cette différence de connotation provoque-t-elle, dans les articles de presse, des différences notables dans le vocabulaire employé en conjonction avec le mot "politicien" et ses pendants dans les autres langues ?
Notre Corpus
Sélection des URLS
Une fois déterminés les mots auxquels nous allions nous intéresser, l'étape suivante consistait à constituer un corpus suffisamment grand pour pouvoir tirer des conclusions générales. Nous avons tenté de sélectionner des textes raisonnablement fouillés, principalement des articles de journaux régionaux et nationaux. Un problème auquel nous avons été confrontés est la rareté relative des articles exploitables en finnois et en norvégien, comparée à l'abondance des exemples en anglais et français.
Nous avons réuni pour chaque langue une trentaine d'URLs.
Méthodologie
Paradigmes et expressions régulières
Une fois recueilli le corpus, il est nécessaire de faire des choix dans la façon dont on va le traiter. En effet, il faut pouvoir repérer le maximum de formes intéressantes en évitant de récupérer trop de déchets. Le filtrage est fait par le script au moyen d'expressions régulières qui doivent ainsi récupérer des formes correspondant à toutes les formes de chacun des paradigmes des mots employés.
Ces paradigmes sont très différents suivant les langues : l'anglais possède deux formes, alors que le finnois, lui, en compte 26 !
Paradigmes complets
Cas | Singulier | Pluriel |
---|---|---|
Nominatif | poliitikko | poliitikot |
Génitif | poliitikon | poliitikkojen |
Partitif | poliitikkoa | poliitikkoja |
Accusatif | poliitikko, poliitikon | poliitikot |
Inessif | poliitikossa | poliitikoissa |
Élatif | poliitikosta | poliitikoista |
Illatif | poliitikkoon | poliitikkoihin |
Adessif | poliitikolla | poliitikoilla |
Ablatif | poliitikolta | poliitikoilta |
Allatif | poliitikolle | poliitikoille |
Essif | poliitikkona | poliitikkoina |
Translatif | poliitikoksi | poliitikoiksi |
Abessif | poliitikotta | poliitikoitta |
Instructif | — | poliitikoin |
Comitatif | — | poliitikkoine |
Singulier | Pluriel | |
---|---|---|
Masculin | politicien | politiciens |
Féminin | politicienne | politiciennes |
Singulier | Pluriel | |
---|---|---|
Indéfini | politiker | politikere |
Défini | politikeren | politikerne |
Singulier | Pluriel |
---|---|
Politician | Politicians |
Les expressions régulières présentées dans le cours sont délimitées par des frontières de mot ("\b" dans la syntaxe egrep). Cependant, nous avons décidé de ne pas en faire usage. Nos expressions régulières sont constituées par la forme de base de chacun des mots employés, accommodant simplement le cas particulier du mot finnois, dont la base subit une alternance consonantique, comme suit :
Langue | Expression régulière |
---|---|
Anglais | "politician" |
Français | "politicien" |
Norvégien | "politiker" |
Finnois | "politikk?o" |
L'intérêt de procéder ainsi paraît évident si on considère que délimiter chaque expression régulière par une frontière de mot impliquerait d'inclure dans chacune d'entre elle, sous une forme ou une autre, l'ensemble des terminaisons, ce qui impliquerait une expression régulière nettement plus complexe, donc nettement plus susceptible de comporter des erreurs.
Le choix de ne pas inclure de frontière de mot dans les expressions régulières se justifie d'autre part sur le plan linguistique :
En effet, les langues sélectionnées tombent à différents endroits du continuum entre langues synthétiques et analytiques. C'est à dire que là où l'anglais écrit « female politician », le français écrit « politicienne », et là où le français écrit « politicien de l'opposition », le finnois écrit « oppositiopoliitikko ». Inclure une frontière de mot dans les expressions régulières empêcherait que les lignes contenant ce mot soient relevées au même titre que les lignes contenant la locution correspondante dans des langues plus analytiques, et il ne serait pas possible de faire une expression régulière incluant tout les préfixes potentiels, car la création de mots ainsi composés, par agglutination, est un processus vivant et productif, aussi bien en finnois qu'en norvégien.
L'inconvénient théorique de ne pas inclure la frontière de mot dans les expressions régulières, c'est de relever des formes parasites, c'est à dire des formes qui contiennent la même chaîne de caractère que le mot étudié, mais sans avoir de lien avec lui.
Ainsi, si nous étudiions le mot "feu", il serait impératif de mettre des frontières de mots, pour éviter de récupérer des mots comme "feutre", "feuler", etc...
Cependant, dans le cas du mot "politicien", on peut affirmer qu'il n'existe vraisemblablement pas de telle forme parasite, ni en anglais, ni en norvégien, ni en finnois.
Dans le cas du français, il existe l'adjectif "politicien". Mais comme il possède exactement la même forme que le substantif correspondant, il est tout bonnement impossible de distinguer l'un de l'autre avec des expressions régulières.
L'explication complète du script se trouve sur cette page
Les tableaux d'URLs sont ici
Résultats
Index globaux
Pour chaque langues, nous avons établi des index globaux triant les mots par nombre d'utilisations décroissant dans notre corpus. On constate sans surprise que, pour chaque langue, les premières places sont globalement occupées par des mot-outils.
On remarquera la surreprésentation en finnois du nom "Yle" qui est celui d'un des sites de journaux utilisé, et dont le nom apparaît des dizaines de fois dans la présentation du site. Il est assez probable que la surreprésentation de "uutiset" et de son équivalent "news" ait une origine semblable.
On peut aussi remarquer en finnois le nombre élevé d'occurrences du déictique temporel "nyt" (maintenant, alors, à ce moment).
Français
- 2154 de
- 1118 la
- 1064 le
- 1026 l'
- 1015 les
- 988 à
- 916 et
- 748 d'
- 697 des
- 661 un
- 609 en
- 546 du
- 469 est
Norvégien
- 1135 i, "dans"
- 1018 og, "et"
- 714 er, "être, conjugaison présent"
- 696 det, "le (neutre)"
- 647 på, "sur"
- 622 til, "à"
- 622 for, "pour"
- 582 å, "particule pour donner un verbe à l'infinitif (équivalent de "to" en anglais)"
- 544 som, "comme"
- 518 en, "un (numéral, masculin)"
- 491 av, "de"
Finnois
- 1044 ja, "et"
- 816 on, "est"
- 401 ei, "ne"
- 236 että, "que" (subordination)
- 227 uutiset "nouvelles"
- 154 yle (nom de site)
- 151 ole, "n'est"
- 145 kuin "que" (comparaison)
- 138 oli, "était"
- 124 se, "ça"
- 123 ovat
- 121 nyt, "maintenant"
Anglais
- 1488 the, "le, la"
- 814 to "à, vers, pour (etc...)"
- 741 a, "un, une"
- 740 in, "dans"
- 713 of, "de"
- 611 and "et"
- 321 on "sur, à propos"
- 318 for "pour"
- 270 is "est"
- 239 that "cela"
- 203 with "avec"
- 186 by "par"
- 171 as "comme"
- 162 news "nouvelles"
- 161 this "ceci"
Les mots ayant un poids sémantique important sont nettement moins utilisés que les mots outils. La très grande majorité d'entre eux est utilisée moins de 100 fois, voire moins de 50 fois, quelle que soit la langue considérée.
Nuages
Compte tenu de cette surreprésentation des mots-outils dans les statistiques, il est plus intéressant d'employer un outil qui les élimine des résultats. C'est le cas de Wordle, qui crée des "nuages" où la taille de chaque mot est proportionnelle à son nombre d'utilisations, et qui élimine par défaut les mot-outils.
On obtient ainsi les nuages suivants :
Les nuages sont réalisés à partir des dumps. Les réaliser à partir des fichiers de contexte fait apparaître le mot recherché de façon complètement disproportionnée par rapport aux autres.
Trameur
Les dumps ont ensuite servi à faire des arbres de cooccurence à partir d'un logiciel différent, le Trameur.
Celui-ci permet une analyse textométrique des fichiers texte brut qui lui sont soumis. Parmis ses nombreuses fonctions, nous en avons utilisé une permettant la création d'arbres de cooccurences entre le terme recherché et son contexte direct. (Nous avons ici choisi d'éliminer les mots vides de sens afin de limiter le parasitage)
Les mêmes expressions régulières que ci-dessus ont été utilisées avec une co-fréquence de 2 et un seuil de cooccurence de 4.
L'anglais et le français présentent des arbres de co-occurrence relativement étoffés et utilisables. Un lexique à consonnance médiatique est très présent (principalement de l'image), ainsi qu'un champ lexical propre à l'occupation politique (représentant, débats). La mention de partis politiques est cependant peu faite, laisant à penser que d'autres termes sont utilisés pour ce sujet ou alors que dans ce contexte précis, la mention de partis politiques n'est pas nécessaire.
Français
On note la présence de mots à consonnance péjorative (médiocrité, fausse, bassement...).
Anglais
Dans les articles anglais en revanche, le péjoratif est moins développé. Des termes dénonciateurs sont également mis à jour, permettant de constater une moindre indifférence des ''politicians'' face à la justice et à la presse.
On met ici en évidence un grand nombre de cooccurrences du terme "politician". Nous pouvons voir l'apparition de termes plus descriptifs des sujets politiques , entre autre environment, business ou market.
Finnois
Compte tenu de la morphologie nettement plus synthétique du finnois, il n'est pas étonnant que les arbres soient plus éclatés, le Trameur traitant chacune des formes du paradigme de façon indépendantes, dont certaines se retrouvent tout simplement isolées :
Là où le français ou l'anglais mettraient un terme en cooccurrence avec "politicien", ces images montrent, outre différents cas du même mot, des mots composés, des compounds, eux-mêmes déclinés.
On voit ici les co-occurrences de « kunnallispoliitikko », soit, plus ou moins, « politicien municipal ». Notons "Turun" (la ville de Turku), "mesenaatti", le mécénat, "liikemies", le marchand ou l'homme d'affaire.
On note ici les cooccurrences de la forme de base. Notons la présence de « journalisti », à la fois emprunt au français concurrençant le mot « toimittaja » et nom propre d'un journal finlandais, l'adjectif « nuori » (jeune), et la présence de « politiikassa » soit "en politique". Il est intéressant de noter ce dernier mot, car les mots "politique" et "politics" ne sont a contrario pas présents dans les arbres français et anglais.
On voit ici les co-occurrences de « poliitikolle », c'est à dire le même mot au cas allatif singulier ("pour le politicien", "vers le politicien"). On constate qu'elles sont plus nombreuses. Notons entre autre la présence de « talouselämä », "vie économique", puisqu'on le retrouve mal orthographié « talouselama » de l'autre côté, « tasavallan », soit "république" au cas génitif, « auttamisesta » "de l'aide" et « kasvuyritykset », "entreprise de croissance".
Norvégien
Comme en finnois, la possibilité de créer des mots composés aboutit à des formes séparées, plutôt qu'à une co-occurrence de deux termes.
Les termes péjoratifs sont ici tellement peu représentés qu'il n'en apparaît que deux dans les arbres de cooccurence faits. Nous ne nous en occuperons donc pas outre mesure. Cependant les termes critiques tels que « mishandlet » (mal géré) ou « uklok » (imprudent) sont présents, ce qui laisse penser que le sujet est pris de façon critique par la presse, et que les « politikerne » trouvent leur responsabilité engagée par leurs actions et/ou discours, sinon vis-à-vis de la loi, du moins par rapport à la presse.
Il est également possible grace aux graphes de constater que de nombreux noms de lieux sont présent dans les coccurences. Cela montre bien bien l'importance des « politikerne » locaux dans la presse. Nous pouvons donc émettre l'hypothèse que cette dernière est plus concernée par les questions locales qu'en France, où celles-ci ne sont même pas mentionnées dans le corpus étudié.