BAO 4 - Des textes aux graphes

On applique le programme patron2graphe (disponible sur I-Campus) sur les données construites en BAO 3.
Ce programme va permettre d'afficher des graphes qui montrent les relations entre le mot choisi (motif) et les mots de son contexte.

Comme nous l'avons vu précédemment, j'ai décidé de m'intéresser aux mots Social, Public, et Travail.

Vu la quantité de données à traiter, et afin d'afficher des résultats plus clairs, j'ai choisi pour chaque mot de me focaliser soit sur me motif 'NOM-ADJ', soit sur le motif 'NOM-PREP-NOM'.
J'ai aussi décidé - pour chaque mot choisi - de n'afficher n'afficher qu'un seul graphe par rubrique (soit sur la sortie Treetagger, soit sur la sortie Cordial) en prenant soin de choisir le graphe qui affichait les meilleurs résultats.
NB : Bien que les sorties treetagger et Cordial soient nettement différentes à l'étiquetage (cf BAO 3), les graphes autour d'un mot choisi sont sensiblement les mêmes.

Social

Pour le mot Social, je me suis focalisée sur les NOM-ADJ.
Le motif entré est le suivant: MOTIF=(S|s)ocia((l(es?)?)|(ux))

Voici les résultats obtenus.

Rubrique société

Rubrique médias

Les images parlent d'elles-même, le vocabulaire autour du mot 'Social' dans la rubrique Société, est bien plus fourni que dans la rubrique Médias ou on ne retrouve que 'réseau(x)' et 'plan'.
Il est intéressant de voir que le programme trouve aussi le mot 'Socialiste', auquel je n'avais pas du tout pensé lorsque j'ai décidé de travailler autour du mot 'social'. On peut d'ailleurs voir dans la rubrique Société qu'il est en relation avec pas mal de mots (proposition de loi, militant, député...) alors qu'il n'a qu'un seul mot associé dans la rubrique Médias.

Public

Pour le mot Public, je me suis aussi focalisée sur les NOM-ADJ.
Le motif entré est le suivant: MOTIF=(P|p)ubli(c|que)s?

Voici les résultats obtenus :

Rubrique société

Rubrique médias

Ici on peut voir dans la rubrique Médias, que le vocabulaire autour du mot 'public' est plutôt apparenté au domaine de la télévision (chaine, audiovisuel, antenne...), ce qui semble logique ; on constate une fois de plus qu'il est aussi beaucoup moins fourni que pour la rubrique Société.

De plus, le programme trouve aussi les mots 'publicité/publicitaire' et 'république/républicain'.
On peut voir que le mot 'publicit(é|aire)' et ses co-occurrents apparaissent beaucoup plus dans la rubrique médias.
Tandis que pour 'république/républicain', cela apparait plus dans la rubrique Société.

Tout ceci est donc très révélateur de la différence du vocabulaire que l'on emploie suivant le domaine dont on parle.

Travail

Pour le mot Travail, je me suis focalisée sur les NOM-PREP-NOM.
Le motif entré est le suivant: MOTIF=(T|t)ravail

Voici les résultats obtenus.

Rubrique société

Rubrique médias

Malheureusement,la rubrique médias ne semble pas se concentrer sur les sujets relatifs au travail.
En revanche, dans la rubrique Sociétés, on voit que de nombreux sujets sont abordés autour du travail (travail le diamnche, lieu de travail, temps de travail...)

Conclusion

On peut voir que les rubriques Sociétés et Médias emploient un vocabulaire nettement différent. Le vocabulaire des médias se restreint beaucoup plus - et cela parait logique - au monde des médias (télévision, réseaux sociaux...), tandis que celui de la rubrique Société semble plus général et plus fourni.
On trouve beaucoup moins de résultats pour la rubrique médias, mais cela est peut-être dȗ à la taille de la rubrique...

C'est donc ici que s'achève ce projet qui m'a beaucoup apporté...
J'ai pu voir l'importance de chaque étape d'un projet, et surtout l'importance du choix des outils (treetagger, Cordial...), en effet, chaque choix impactera plus ou moins sur le résultat final.
Ce projet m'a aussi permis d'approfondir mes connaissances du langage Perl.