Descriptif projet bao Descriptif projet bao




Boîte à Outils 4

Extraction de graphes de mots

Objectif

La Boîte à Outils 4 est la dernière étape de notre projet et consiste en la création des graphes à partir des sorties extraits avec Cordial dans la Boîte à Outils 3.

À partir des résultats obtenus dans la Boîte à Outils 3, nous avons récupéré une liste de mots correspondants aux patrons morphosyntaxiques extraits lors de la boîte précédente. L´objectif est donc d´obtenir des représentations graphiques de ces patrons qui nous permettront d´analyser les différentes rubriques du point de vue linguistique. Comme on a dit, on applique cette étape seulement aux sorties Cordial.

Le programme "patron2graphe"

Le programme

Pour obtenir la représentation graphique des patrons pour les motifs choisis on va utiliser le programme patron2graphe-2.0, qui permet de récupérer les liens entre les mots faisant partie de la sortie obtenue après la recherche d´un patron. On peut aussi ajouter l´option de se concentrer sur certains mots, c´est-à-dire, de n´obtenir que les résultats pour un motif donné.

L´exécution

Le programme prend comme arguments l´encodage des fichiers d´entrée, ensuite le fichier qui contient les résultats de la recherche des patrons morphosyntaxiques, puis en troisième argument, celui-ci optionnel, un fichier contenant un motif particulier.

patron2graphe.exe "encodage" resultats_patrons.txt motif.txt

Les graphes

Tout d´abord, on a consideré que pour choisir les motifs il faudrait peut-être savoir quels sont les mots avec la fréquence la plus élevée dans chaque rubrique, pour éviter chercher des motifs liés aux sujets qui éventuellement ne concernent pas la rubrique traitée. Pour connaître les termes les plus fréquents dans chaque rubrique on a segmenté le texte, on a supprimé les doublons et on a compté le nombre de fois qu´apparaît chaque terme. La commande est la suivante : tr " " "\n"< 3210_NOM-ADJ.txt | sort | uniq -c | sort -r > 3210_freq.txt. Comme résultat, on obtient les termes les plus fréquents :

  • Voici les résultats pour la rubrique International (3210) : président, américain, européenne et politique.

  • fil rss

  • Dans la rubrique À la Une (3208), les mots les plus fréquents sont : national, présidentielle, français, président...

  • Pour la rubrique Europe (3214) on trouve : européenne, Union, président, Royaume et britannique.

  • La dernière rubrique est France (3224) : français, national, nationale, enquête et sociaux.

Ensuite, on a exécute le programme dont on a parlé pour obtenir les graphes concernants chaque motif choisi.

Pour la rubrique À la Une, on a utilisé comme motif « national » et « président » :


fil rss

Comme vous pouvez observer dans l´image, on a utilisé le motif \bnational, en laissant ouverte la possibilité à d´autres terminaisons pour ne pas restreindre la recherche à ce mot-là, mais de l´élargir pour récupérer aussi les mots ayant la même racine. En fait, on a décidé de faire cela parce qu´avec la recherche du terme lui-même on obtenait moins de résultats.

fil rss
fil rss

Les graphes montrent que les expressions les plus fréquentes dans notre corpus, en utilisant les données extraits du patron NOM ADJ, sont « Front national » et « élection présidentielle ». Effectivement, ces deux expressions sont très significatives pour notre corpus et montrent conséquemment le sujet le plus important de cette rubrique pendant 2017 : les élections présidentielles en France et le Front national, le parti politique qui a perdu les élections dans le second tour face au parti de Emmanuel Macron En marche !.

Les motifs choisis pour la deuxième rubrique « International » sont « américain » et « président » :


fil rss

Cependant, cette fois si, les résultats pour la racine « américain » sont plus nombreux, c´est pour cela qu´on aussi construit un autre graphe pour n´obtenir que les liens avec le mot « américain » :

fil rss
fil rss

D´un côté, le graphe obtenu avec le motif « américain » montre que l´expression le plus fréquente est celui de « président américain », et, d´un autre côté, on trouve dans le graphe obtenu avec « président » que « président américain » se répète 129 fois. Comme il s´agit de la rubrique À la Une de 2017, le graphe révèle bien un des évènements le plus important qui s´est passé au niveau politique en 2017 : l´élection de Donald Trump comme président des États Unis.


Les suivants mots-clés (européenne, président) correspondent à la troisième rubrique Europe :


fil rss
fil rss

Dans le premier graphe, les suites de mots les plus fréquentes sont « Union européenne » et « Commission européenne », pas étonnant s´agissant de la rubrique Europe. En ce qui concerne le mot « président », il faut souligner les formules « président américain» et « président catalan », qui sont plus fréquents dans cette rubrique Europe à cause de l´élection du président Donald Trump et du mouvement indépendantiste catalan, deux événements politiques qui ont marqué l´ordre du jour de la politique cette dernière année.


Finalement, pour la quatrième rubrique, celle de France, on a choisi les motifs « français » et « national » :


fil rss
fil rss

Qu´est-ce qu´on peut remarquer à propos de cette dernière rubrique ? Il faut souligner la présence de « parquet national », le parquet national financier (PNF) est une institution judiciaire française chargée de traquer la grande délinquance économique et financière depuis sa création en 2013. Encore, l´ordre de mots qui se détache du corpus c´est celui du « Front national ». Il serait intéressant d´aller chercher d´autres partis politiques dans le corpus pour examiner s´ils sont aussi présents dans celui-ci et dans quelle mesure. Nous avons créé un graphe avec le motif « socialiste » pour regarder s´il est aussi présent dans le corpus.

3224_socialiste

Après essayer d´examiner l´existence d´autres options politiques dans le corpus, en particulier l´idéologie de gauche pour comparer les deux côtés idéologiques politiques, c´est évident que le parti « Front national » est beaucoup plus notoire dans la rubrique « France » que celui du parti socialiste par exemple.

Ensuite, on va regarder la présence du parti français qui a finalement gagné les élections : En marche !. On a crée des graphes pour extraire les apparitions de ce parti (on a donc créé des nouveaux fichiers qui contient les extractions du patron PREP-NOM pour toutes les rubriques). Cependant les résultats ne montrent pas ce qu´on attendait. La rubrique avec la fréquence las plus élevée c´est celle de À la Une, avec un total de 22 correspondances trouvées, ce qui nous semble très peu s´agissant du parti élu :

fil rss

Comme ce résultat nous semblait un peu étrange, nous sommes aller regarder les fichiers eux-mêmes pour voir la fréquence d´apparition de ce parti. Pour le parti « En marche ! », la fréquence la plus élevée on la trouve dans la première rubrique À la Une (53). On a aussi fait cette recherche avec le nom du candidat et actuellement président, Emmanuel Macron : À la Une (248), International (101), Europe (117) et France (110). On a réalisé le même travail avec la candidate du parti de l´opposition, Marine Le Pen : À la Une (80), International (40), Europe (26) et France (40). Comme prévu, la présence du président élu et de son parti est beaucoup plus élevée que celle de l´opposition, ce qui est plus logique malgré la première impression qu´on a eu à partir du graphe qui remarquait la présence du parti « Front national ».


En dernier lieu, on a envisagé de sélectionner un autre terme pour l´analyser dans les quatre rubriques afin de l´examiner dans tous les contextes. Pour ce but, on a choisi le terme « politique ». Les résultats trouvés pour les quatre rubriques À la Une, International, Europe et France se trouvent en bas (on a utilisé egrep pour récupérer toutes le lignes qui contiennent notre motif):

fil rss
fil rss
fil rss
fil rss

Une fois qu´on a construit tous les graphes avec le mot « politique », on a pensé qu´il serait intéressant de comparer les résultats obtenus, pour regarder si l´emploi du mot varie dans les différentes rubriques. Pour comparer les résultats, on a récupéré les ordres de mots qui contenaient le mot « politique » des sorties NOM-ADJ de chaque rubrique. On a trié les résultats et supprimé les doublons. De cette manière, on obtient un fichier qui contient seulement les suites NOM-ADJ qui contient « politique » ordonnées alphabétiquement :

fil rss

Une fois qu´on a un fichier similaire pour chaque rubrique, on a comparé les fichiers obtenus et on a extrait les expressions avec le mot « politique » qui apparaissaient dans chaque paire des fichiers. La commande utilisée est comm : cette commande compare ligne à ligne deux fichiers triés et affiche les lignes communes. Une fois qu´on a comparé tous les fichiers, on a mis ensemble toutes les expressions avec « politique » qui se répétent dans les quatre rubriques et on a supprimé les doublons. Voici les expressions résultantes :

fil rss

Ceux qui ont le plus grand nombre des occurrences sont : « personnalités politiques », « service politique », « procès politique », « politique migratoire » et « politique étrangère ».

Finalement, on va analyser le terme « élections ». Comme les élections présidentielles françaises on eu lieu en 2017, on voulait étudier cet évènement politique puisqu´il devrait être pertinent sans doute pour les quatre rubriques choisies : À la Une, International, Europe et France. Sans aucune doute, les élections étaient fortement présents dans les rubriques À la Une et France. Cette fois-ci nous allons utiliser le patron NOM-PREP-NOM pour extraire les occurrences de « élection » et « élections ».

fil rss
fil rss
fil rss
fil rss

L´expression la plus fréquente avec « élections » c´est « élections législatives », évidemment pour faire référence aux élections legislatives françaises de 2017.