étiquetage syntaxique

Afin de réaliser cette étape, nous avons utilisé deux méthodes différentes dont les résultats ne sont pas les mêmes. D'abord, nous avons utilisé le programme TreeTagger auquel nous avons eu recours via un script Perl. Les résultats de cet étiquetage sont représentés au format XML. Ensuite, nous avons travaillé avec sur Cordial un logiciel qui a une interface graphique. Les sorties de ce programme ont l'extention .cnr.

Programme TreeTagger

Le script que nous avons utilisé dans cette boîte à outils sert à étiqueter les éléments dans un texte. Ce script réalise le traitement des fichiers à l'aide du programme TreeTagger qui consiste à l'étiquetage des mots. En sortie nous obtenons des fichiers au format XML ou nous stockons des lemmes et des POS associés à chaque mot des fichiers parcourus. Cette opération est effectivement faite par TreeTagger.

Programme Cordial

L'obtention des fichiers de Cordial ne nous a pas posé beaucoup de problèmes grâce à son utilisation directe. Pour cette étape nous avons utilisé les fichiers au format .txt produits avec la première boîte à outils. Avant de commencer le traitement sur Cordial, nous avons eu à sauvegarder tous les fichiers en utilisant l'encodage ISO ce qui est obligatoire pour travailler sous ce logiciel. Pour ce faire, nous avons utilisé la commande iconv sur le terminal. Une fois que les fichiers ont été prêts, nous les avons traités chacun à son tour sur Cordial en appliquant les paramètres requis.