BAO2

Coopération en Perl, Tree-tagger

Un programme perl devient plus fort et donc plus utile s'il peut appeler d'autres programmes extérieurs pendant son exécution.
C'est ce que font les programmes de BAO2. Ils appellent les programmes de segmentation et d'étiquetage :
system("commandes BASH");

On ajoute donc la subroutune d'étiquetage aux scripts de BAO1, et on obtient ainsi des programmes qui peuvent faire l'étiquetage et transmorfer le résultat en XML.

Scripts et produits

Cordial

Cordial est un outil puissant qui fait l'étiquetage en français beaucoup plus vite que le Tree-tagger (et qui donne un résultat qui serait plus pertinent, nous allons comparer les deux résultats à l'étape suivante, BAO3)

Avant de lancer Cordial, il faut s'assurer que le fichier d'entrée soit encodé en ISO mais pas en UTF-8.
pour convertir le fichier, on utilise la commande iconv. Mais avant cela, on peut remplacer toutes les apostrophe ’ qui ne sont pas reconnues en ISO par ' pour que Cordial soit plus performant par la suite (il y a un grand nombre d'apostrophes dans le corpus). Pour les autres problèmes d'incompatibilité entre les deux conventions d'encodage, on utilise l'option -c pour les négliger.

Produits Cordial