L'objectif de cette phase

Le but de cette boîte est d'étiquter les extractions textuelles réalisées dans BAO1 en morphosyntaxique. Les trois sorties de programme est deux genres de fichiers : TXT et XML. Le premier TXT contient les texte brut de chaque extraction, le deuxième TXT est le résultat d'étiquage de Talismane, et XML est le résultat d'étiquage de Tree Tagger.

L'idée de cette boîte est que le programme parcourt le répertoire fils RSS, en traversant l'arborescence de manière récursive, puis trouve le fichier qui correspond à la rubrique intéressante, et ensuite récupère ses titre et description. Ensuite, mettre ces extractions textuelles dans les étiqueteurs. Et enfin, sortir les résultats d'étiquetages. Deux étiqueteurs différents ont été utilisées pour réaliser cette boîte à outils :

Le script utilisé sur les trois rubriques : BAO2_TreeTagger_Talismane.pl
Il faut faire attention que les traitements sur chaque rubrique sont sûrement longs, car les fichiers sont tellement nombreux. Chaque rubrique a pris à peu près 5-7 heures, ça dépend de la quantité de fichiers à traiter.

L'autre script que j'ai écrit pour former le fichier XML avec les résultat d'étiquetage de Talismane : BAO2_outXML_talismane.pl RÉSULTAT_Talismane_XML_3260.xml
Ce programme sort un fichier XML où les étiquetages de Talismane sont entourés par les balises structurées. Et j'ai traité seulement une rubrique 3260 (LIVRES), puisque il prend beaucoup de temps pour le traitement, le rubrique 3260 (LIVRES) a pris presque 12 heures. La sortie de ce programme est le fichier de travail de l'exercice 13 (phase 2) du cours DOCUMENT STRUTURÉ (XML), et vous pouvez aller voir ce travail sur le site : Exercice 13 - Phase2 : Extraction dans les Fils RSS du Monde.

La commande à exécuter ces deux programmes Perl :
perl programme.pl répertoire_traité numéro_rubrique


Étiquetage de Tree Tagger

Attention sur l'utilisation de Tree Tagger : il faut bien savoir l'endroit de Tree Tagger dans votre PC, et puis changer d'abord le chemin de son utilisation avec la commande PATH=$PATH:chemin/vers/TreeTagger/bin. Et l'exécution de Tree Tagger dans mon programme est réaliser par la commande en Perl :

open(ETI, ">:encoding(utf-8)", "temporaire.txt");
print ETI $titre;
close ETI;

system ("perl -f BAO2_tokenise-utf8.pl temporaire.txt | tree-tagger -token -lemma -no-unknown /Applications/treetagger/lib/french-oral-utf-8.par > temporaire.txt.pos");
system ("perl BAO2_treetagger2xml-utf8.pl temporaire.txt.pos utf-8");

Les fichiers de sortie (Rubrique UNE 3208) :
TreeTagger_3208 XML TreeTagger_3208 TXT

Les fichiers de sortie (Rubrique INTERNATIONAL 3210) :
TreeTagger_3210 XML TreeTagger_3210 TXT

Les fichiers de sortie (Rubrique LIVRES 3260) :
TreeTagger_3260 XML TreeTagger_3260 TXT


Étiquetage de Talismane

Le deuxième outil d'étiqueter les "title" et "description" est Talismane. Attention de mettre les dossiers dont exécution de Talismane a besoin dans le bon endroit dans votre PC. Et l'exécution de Talismane dans mon programme est réaliser par la commande en Perl :

open (FILETALIS, ">:encoding(utf-8)", "bao2_test.txt");
print FILETALIS $concatenationTalis;
close FILETALIS;

system ("java -Xmx1G -Dconfig.file=TALISMANE-BAO2019-DISTRIB/talismane-fr-5.0.4.conf -jar TALISMANE-BAO2019-DISTRIB/talismane-core-5.1.2.jar --analyse --sessionId=fr --encoding=UTF8 --inFile=bao2_test.txt --outFile=bao2_test.tal");

open (TEMP_TALIS, "<:encoding(utf-8)", "bao2_test.tal");
$temp_talis=<TEMP_TALIS>;
close TEMP_TALIS;
print OUTTALIS $temp_talis;

Les fichiers de sortie (Rubrique UNE 3208) :
Talismane_3208 TXT

Les fichiers de sortie (Rubrique INTERNATIONAL 3210) :
Talismane_3210 TXT

Les fichiers de sortie (Rubrique LIVRES 3260) :
Talismane_3260 TXT