OBJECTIF :

Nous avons déjà fini de traiter nos corpus et nous avons pu extraire des informations qui nous intéressent, maintenant il est temps de jeter un coup d’œil sur les résultats. 

Pour que nous nous perdions pas dans de nombreux fichiers et de textes, il est nécessaire de rendre nos résultats  plus visuellement parlants pour pouvoir observer et effectuer une analyse.

Pour envoyer les relations extraites automatiquement sur le site de graphe, nous avons besoin d'écrire un dernier script. Ceci sera réalisé dans le langage Python et son fichier de sortie pour créer le graphe sera envoyé  via commande Bash(curl) dans le terminal.

Python Script(Cliquer pour télécharger)

Ligne de commande pour lancer le programme:
python BAO4_graphe.py ./BAO2/BAO2_Py_udpipe3210.xml obj

(On se situe dans le répertoire BAO)

Par rapport au script d'extraction de relation, nous avons besoin de compter la fréquence des occurrences, ainsi la liste de tuple ne peut plus répondre à notre demande.
Il faut donc changer le buffer en dictionnaire. Aussi, pour avoir un graphe propre et joli, nous devons nettoyer le corpus, tout ce qui n'est pas une lettre seront supprimé.



Relation OBJ 3210
(International)

Relation OBJ 3246
(culture)

Observation & Analyse

J'ai fait le choix de focaliser mon observation  sur la relation -obj- dans deux rubriques (International & culture).

Mes hypothèses avant d'avoir les résultats visualisés étaient  que les nœuds aurions beaucoup de différences entre les deux rubrique en sachant qu'elles traitent des  sujets souvent peu liés, et qu'en prenant en considération le contexte de la société pendant cette période, je pensait que la crise sanitaire serait très présentée et ce serait un nœud qui se situe au centre.  Souvent dans l’international il y a des reportage sur les relations ou la communication entre les pays et les gouvernements, je pensais que ce seraient également des nœuds présents et qui ont un poids important. 

Dans la rubrique culture, souvent nous voyons des articles sur les œuvres cinématographiques et télévisuelles, aussi beaucoup de parcours ou d'expériences des artistes connu, ayant toujours en esprit les impacts de la crise sur beaucoup d'aspects, je présumerais que ce nœud doit aussi être présent dans le graphe de cette rubrique. 

Avant d'observer de plus près pour vérifier mes hypothèses,  j'ai remarqué que dans deux graphes la forte présentes des Stopwords. Cela signifie que mes graphe contiennent beaucoup de bruits. J'ai vérifié l'étape de nettoyage mais je n'ai pas pu résoudre le problème des Stopwords. 

Malgré l'interférence des Stopwords, j'ai pu trouvé des choses intéressantes et vérifier mes hypothèses:

- Il existe effectivement une grande différences entre les noeuds du graphe 3210 et 3246, ceci est bien causé par leur thème éloigné.

- Dans le graphe de la rubrique International, les nœuds présents comprennent bien "gouvernement","pays", "pouvoir","projet",etc. Cependant la présence du DEP "crise" n'est pas aussi important que je pensait. Peut-être qu'en entrant dans la deuxième année de la pandémie les gouvernements commencent à arriver à mieux gérer cette crise. Ou il se peut que la plus part des pays ont pris l'habitude de la pandémie et essaient de vivre avec.   

- Dans le graphe de la rubrique Culture, la crise n'est pas du tout présente, cela peut être un message positif, soit l'industrie de l'art et de la culture est entrain de se rétablir. Les noeuds comme "film","oeuvre","roman","album" y sont bien présents. Ce qui m'a agréablement surprise c'est le poids  important du lemme  "vie", qui est en contraste avec le lemme "mort" présent dans le graphe de la rubrique International.  Cette dualité me fait réfléchir entre la réalité et le monde des arts qui crée des passions et de la beauté pour le monde.