Objectif et déroulement :

La BaO2 va fonctionner un peu comme la première, mais en ajoutant un élément supplémentaire : l'étiquettage.

Pour cela, il faut :

  • Tokeniser nos fichiers (XML ou txt?), ce que l'on fera grâce au script tokenise-utf8 (fourni par Mr Fleury, modifié par nous).
  • Étiquetter parallélement par Treetagger et Talismane, cela nous permettra de comparer les deux approches.
  • Dans le cas de treetager, utiliser le script treetagger2xml-utf8 pour récupérer l'étiquettage et l'écrire en xml.

À la fin, nous aurons un fichier XML entièrement étiqueté.

Autres scripts utilisés pour cette phase

tokenise-utf8

Syntaxe :
perl < lien-tokenise-utf8 > -f < lien-input-txt > > lien-output.txt


On peut enchainer les commandes :

perl < lien-tokenise-utf8.pl > -f < lien-input-txt > | tree-tagger < lien-fichier-par > -token -lemma -no-unknown > < lien-output-txt >


On aura un fichier txt, dans le dossier d'où on appelle le script. Ce fichier contiendra sur chaque ligne TOKEN - POS - LEMME. C'est ce fichier que devra utiliser treetagger2xml-utf8.

treetagger2xml-utf8

Syntaxe :
perl < lien-treetagger2xml-utf8 > < lien-input-txt > < encodage (utf8 ici) >


On aura un fichier xml, dans le dossier d'où on appelle le script. Il aura exactement le même nom, avec .xml rajouter en fin.