Boîte à outils 2

La BAO2 consiste en l'étiquettage des fichiers sortis par la BAO1 ( des exemples à télécharger : exemple .txt, exemple .xml ). La première solution est l'étiquetage via Treetagger, la seconde l'étiquettage via Cordial.

Treetagger

Pour Treetagger, nous repassons par un script PERL, nous avons réutilisé celui de la BAO1 avec un nouveau sous-programme :

Ici, le script complet!

bao2

La sortie :

bao2

Nous avons bien pensé à une autre solution, en ne repassant pas sur l'arborescence complète mais sur les extractions de la BAO1, mais les sorties utilisées viennent de l'autre script. Mais cela permettrait d'éviter à devoir s'attarder à nouveau sur le nettoyage du texte, les doublons, etc...

Ici, un autre script!

Cordial

Pour Cordial, nous n'avons plus besoin de script PERL, mais besoin de la petite commande iconv pour réencoder tout les fichiers en ISO8859-1. Ce qu'iconv ne veut tout d'abord pas faire du fait de certains caractères spécifiques : les E accents aigu MAJUSCULE, et tous les caractères accentué majuscules. Mais pour cela, il y a TextWrangler et sa fonction Multi-files Search and Replace qui permet de régler ce problème assez vite, sans avoir à refaire toutes les recherches sur tout les fichiers..

Cordial s'utilise de cette façon :

bao2

Une fois l'annotation syntaxique faite, voici les sorties :

Fichier .cnr à télécharger ici!

bao2

Pour l'utilisation des fichiers de sorties :

Voyons la BAO3 !