Boite à outil 2
Le but de la boîte à outils 2 (BàO 2) c'est de pouvoir étiqueter les données extraites par la BàO1
Pour cela, on va intégrer dans notre script deux programmes externes qui sont "Treetagger" et "Talismane"
On va d'abord tokenizer notre fichier grace au script fourni par Serge Fleury et Jean-Micheal Daube.
Ensuite, on va étiqueter nos données avec Treetagger et Talismane.
Pour Treetagger, on va utiliser le script "treetagger2xml-utf8"
Le script que l'on met ici est modifié pour l'environnement MacOS, il faudrait donc faire quelques changements pour que ça puisse fonctionner sous Windows.
Script en Perl
Dans notre script, on a deux fonction qui s'occupent de l'étiquatage. Et dans chaque fonction on voit des programmes externes. Pour vous expliquer en détail, notez les points suivants :
➝ Segmenter le fichier : tokenise-utf8.pl
➝ Etiqueter le fichier segmenté : tree-tagger et talismane
➝ Convertir le fichier texte segmenté et étiqueté en fichier xml : treetagger2xml-utf8.pl
Script Perl-BaO2 : Cliquez ici pour télécharger !
Remarques
Dans le code, vous allez voir qu'on était obligé de mettre quelques symboles pour pouvoir répérer les frontières des titres et des descriptions pour pouvoir travailler correctement dessus avec la Boite à Outils 3.
Regardez le code juste en dessous, ligne 17 et 18, vous pouvez voir qu'on ajoute à chaque fois le symbole § pour réperer la fin. ( U+00A7 est équivalent à § )
Et en meme temps, on ajoute aussi "££debuttitre££" et "££fintitre££" et "££debutdescription££" et enfin "££findescription££" que vous pouvez voir dans la ligne 21.
Résultats obtenus
Sortie TALISMANE 3208 : Cliquez ici pour voir !
Sortie TALISMANE 3210 : Cliquez ici pour voir !
Sortie TALISMANE 3214 : Cliquez ici pour voir !
Sortie TEXTE 3208 : Cliquez ici pour voir !
Sortie TEXTE 3210 : Cliquez ici pour voir !
Sortie TEXTE 3214 : Cliquez ici pour voir !
Les sorties XML sont des fichiers lourds à charger sur les navigateurs. On préfère donc mettre une capture d'écran pour vous montrer l'exemple.
En dessous de l'image, vous trouverez les liens pour les télécharger !
Exemple d'une sortie XML :
Sortie XML 3208 : Cliquez ici pour télécharger !
Sortie XML 3210 : Cliquez ici pour télécharger !
Sortie XML 3214 : Cliquez ici pour télécharger !
Script en Python
Script Python-BaO2 : Cliquez ici pour télécharger !