Etiquetage morphosyntaxique

L'objectif de cette deuxième boîte-à-outils est la réalisation de l'étiquetage des données textuelles extraites dans la première étape.
L'étiquetage morphosyntaxique consiste dans un premier temps à segmenter les données textuelles en petites unités de la langue puis dans un second temps, à associer à chacune d'elles son lemme et ses informations morphosyntaxiques (nature, genre, nombre, temps, mode etc.) à l'aide d'étiquettes.
Une fois ce processus achevé , le fichier de sortie présente chaque mot en trois colonnes:


Cette opération a été faite automatiquement grâce aux deux étiqueteurs morphosyntaxiques Cordial et Tree-tagger.
Cordial a traité nos deux fichiers TXT.
Tree-tagger a analysé nos deux fichiers XML.

Remarque: Tree-tagger est intégré au programme de parcours de l'arborescence qui produira un nouveau fichier XML.
(voir photo du script ci-dessous).