L'objectif de cette deuxième boîte-à-outils est la réalisation de l'étiquetage des données textuelles extraites dans la première étape.
L'étiquetage morphosyntaxique consiste dans un premier temps à segmenter les données textuelles en petites unités de la langue puis dans un second temps, à associer à chacune d'elles son lemme et ses informations morphosyntaxiques (nature, genre, nombre, temps, mode etc.) à l'aide d'étiquettes.
Une fois ce processus achevé , le fichier de sortie présente chaque mot en trois colonnes:
Cette opération a été faite automatiquement grâce aux deux étiqueteurs morphosyntaxiques Cordial et Tree-tagger.
Cordial a traité nos deux fichiers TXT.
Tree-tagger a analysé nos deux fichiers XML.
Accordons quelques lignes au mode d'emploi de nos deux outils d'étiquetage.
Cordial est un logiciel qui dispose d'une interface graphique. La procédure d'utilisation est la suivante:
ouvrir le logiciel ==> charger le fichier à étiqueter ==> lancer le processus d'étiquetage
Le fichier de sortie porte l'extension .cnr .
Tree-tagger est un pogramme utilisé en ligne de commande. La syntaxe est la suivante:
tree-tagger.exe fich_segmenté langue.par -token -lemma -sgml -no-unknown > fich_etiqueté
Ajoutons que pour travailler, Tree-tagger doit recevoir, en amont, un fichier dans lequel toutes les unités ont été segmentées sous la forme un mot par ligne. C'est pourquoi, la segmentation est au préalable indispensable. Puis il faut lui associer un paramètre obligatoire: la langue d'étiquetage. Ce fichier a l'extension .par .