Boîte-à-outils II: étiquetage

Cordial et Tree-tagger

Accordons quelques lignes au mode d'emploi de nos deux outils d'étiquetage.

Cordial est un logiciel qui dispose d'une interface graphique. La procédure d'utilisation est la suivante:
ouvrir le logiciel ==> charger le fichier à étiqueter ==> lancer le processus d'étiquetage
Le fichier de sortie porte l'extension .cnr .

L'encodage en UTF-8 n'est pas reconnu. Il faut donc transcoder le fichier en ISO.
Les fichiers dépassants quelques mégaoctets ne sont pas supportés. Il faut donc scinder les fichiers si besoin.

Tree-tagger est un pogramme utilisé en ligne de commande. La syntaxe est la suivante:
tree-tagger.exe fich_segmenté langue.par -token -lemma -sgml -no-unknown > fich_etiqueté

-token pour afficher le mot segmenté que l'on éditera
-lemma pour afficher le lemme du mot
-sgml pour ne pas prendre en compte la lecture des balises
-no-unknown pour ne pas avoir en sortie la mention unknown si une catégorie n'est pas reconnue

Ajoutons que pour travailler, Tree-tagger doit recevoir, en amont, un fichier dans lequel toutes les unités ont été segmentées sous la forme un mot par ligne. C'est pourquoi, la segmentation est au préalable indispensable. Puis il faut lui associer un paramètre obligatoire: la langue d'étiquetage. Ce fichier a l'extension .par .

Archive BAO2

Etiquetage morphosyntaxique

Cordial et Tree-tagger