Boîte à Outils 4
La Boîte à Outils 4 est la série finale dans laquelle les patrons (NOM PRP NOM et NOM ADJ et ADJ NOM) sont subis à l'analyse textométrique. Nous avons utilisé le programme Perl patron2graphml.exe qui prend en entrée un encodage UTF-8 (argument 0), une liste des patrons (argument 1), un motif (argument 2 est optionnel) et construit en sortie un fichier au format graphml. Ce programme est censé être utilisé sous le Windows depuis l’invite de commandes. Il y a 2 modes d’utilisation de ce programme :
- Pour afficher tous les noeuds du graphe :
patron2graphe.exe "encodage" patrons.txt - Pour afficher uniquement des nœuds obtenus par filtrage préalable du motif dans les patrons :
patron2graphe.exe "encodage" patrons.txt motif-encodage.txt
Expériences
Nous nous sommes intéressées à savoir les noms (ou les adjectifs) associés aux adjectifs qui désignent les Etats-Unis, la Russie, l’Allemagne et l’Espagne dans la rubrique Europe. Nous avons fourni toutes les formes des adjectifs américain, russe, allemand, espagnole afin de pouvoir identifier les sujets des fils RSS de 2013. Nous avons exécuté la ligne de commande suivante : patron2graphe.exe "utf-8" europe-NOM_ADJ.txt motif-utf8.txt
- L'adjectif \baméricaine?s?\b:
Les noms les plus courants sont président (3), banque (2), fisc (2), écoutes (3) et drones (2). Les deux thèmes majeures abordées correspondent au secteur de finances, mais nous pouvons aussi remarquer le groupe des noms agence, sécurité, informaticien qui, à notre avis, correspondent à l’affaire Snowden (juin 2013). Le drone correspond l'utilisation des drones par le FBI sur la territoire américaine qui a évoque le controverse (comme menace sur la vie privée) . - L'adjectif \brusses?\b :
Les contextes des adjectifs russe, russes sont beaucoup plus variés. Les noms les plus fréquents sont président (14), justice (6), police, loi, opposant (3), milliardaire, homologue, nucléaire, vodka (2). Visiblement, les sujets principales mentionnent la justice russe et ce fait est probablement lié à la libération de Khodorkovsky en décembre 2013 et à la réaction des opposants au pouvoir actuel. Les tokens désignant les forces d’ordre et la corruption (sécurité, oligarque, mafieux, soldats, Missiles, armée) donne à la Russie un image d'un pays militaire et totalitaire, d'après les textes du Monde. - L'adjectif \ballemande?s?\b:
Les noms les plus fréquents sont chancelière (16), gouvernement (7), Verts (6), ministre , sociaux démocrates(3), pianiste, banque (2).En général, la plupart d'autres noms correspondent aussi au domaine du gouvernement (surtout du côté des parties politiques) ou des affaires sociales (parlement, vote, distribution, finances, santé, libéraux, économie). Il faut remarquer que le graphe confirme l'importance de la partie des écologistes en Allemagne. - L'adjectif \bespagnole?s?\b :
Les noms les plus fréquents sont justice (6), gouvernement, capitale (3), autorités, banque, pédophile (l'extradition de Daniel Galvan), enclave (2). Nous pouvons supposer que "justice" est liée à la saisie des propriétés du gendre du roi espagnol. Le mot enclave correspond aux plusieurs faits car il désigne la division territorial. Les noms sont généralement liés au domaine du gouvernement et des affaires sociales.
Remarques
Cet analyse bref a montré que la présence des États-Unis et de la Russie est perçue différemment que celle des pays européens. Les affaires des pays européens sont décrites avec plus de détails alors que les groupes des mots NOM-ADJ et ADJ-NOM font allusion aux sujets surtout controverses des États-Unis et de la Russie. Ainsi, le programme peut être assez utile pour l'analyse textuel statistique des opinions dans la presse. De plus, les graphes sont assez efficaces pour la visualisation des suites NOM-ADJ et ADJ-NOM en distinguant le pôle et les contextes avec leur nombre d'occurrences.