L'objectif de cette phase

À la base de données d'extractions que nous avons obtenues par les BAOs précédentes, nous pouvons maintenant comparer les terminologies via les extractions des patrons morphosyntaxiques de chaque rubrique. L'outil utilisé dans cette boîte est : le programme patron2graphedemots-osx (Télécharger ce programme).


Patron Graphe

ATTENTION : avant d'exécuter le programme patron2graphedemots-osx sur votre mac, il faut vérifier que XQuartzest bien installé dans votre mac et ouvert.
La commande à exécuter ce programme :
./patron2graphe.exe "UTF-8" fichierdepatrons.txt motif.txt
L'entrée est la liste d'extraction de patrons morphosyntaxique.

Dans cet exercice, j'ai utilisé les fichiers d'extractions de 4 partrons morphosyntaxiques (NOM PREP NOM PREP NOM, VERBE DET NOM, NOM ADJ, ADJ NOM) comme l'entrée, afin de mieux étudier les caractéritiques terminologiques de chaque rubrique.

Les trois fichiers d'entrée : 3208 TXT 3210 TXT 3260 TXT

Le motif "MANIFESTANT"

Le premier mot que j'ai traité est "manifestant". Il n'y a pas de graphe montré sur le rubrique LIVRES (3260), qui montre qu'il n'y a pas ce mot "manifestant" dans les extractions de cette rubrique.

manifestant - 3208

manifestant - 3210

Ce n'est pas difficile de percevoir qu'il y a plus d'occasions de chiffres dans la UNE que dans l'INTERNATIONAL, et ces chiffres sont quasiment tous les grands nombres. Nous pouvons supposons que les manifestations reportées à la une sont très souvent une grande manifestation. D'ailleurs, je pense que c'est possiblement une justification que les Français ont l'habitude d'organiser les grandes manifestations, car la plupart des manifestations de grande envergure ne se sont pas passées à l'extérieure de France. Certainement, il y a des expressions communes apparues dans ces deux rubriques, telles que "troisième manifestant mort", "jeunes manifestants", "manifestants palestiniens".


Le motif "ROMAN"

À la base de résultat de traitements précédents, je suppose que la rubrique LIVRES utilise une terminologie assez spécifique par rapport aux rubriques UNE et INTERNATIONAL. Pour prouver cette hypothèse, j'ai traité un mot bien littéraire, roman.

roman - 3208

roman - 3210
roman - 3260

Et comme prévu, le résultat de rubrique LIVRES est très nombreux, quand les résultats de deux autres rubriques sont assez peu.

Grâce à ces graphes, nous pouvons visualiser rapidement les extractions et les terminologies de chaque rubrique en cherchant des motifs pertinents. C'est très pratique de travailler avec les genres de textes variés en termonologie. Et c'est un outil utile qui nous permet de comparer de grosses quantités de données textuelles d'une façon élégante. Pourtant, la qualité de résultat se dépend beaucoup de la qualité d'étiquetage. Et en utilisant le même étiqueteur, le pré-traitement de corpus, tel que le nettoyage du corpus (stop words, ponctuations, ect.) peut aider à améliorer la qualité d'étiquetage.