Alican Yüksel

alicanyuksel@outlook.com

Oussama Id Ali

oussamaidali@gmail.com

Boite à outil 2

Le but de la boîte à outils 2 (BàO 2) c'est de pouvoir étiqueter les données extraites par la BàO1

Pour cela, on va intégrer dans notre script deux programmes externes qui sont "Treetagger" et "Talismane"
On va d'abord tokenizer notre fichier grace au script fourni par Serge Fleury et Jean-Micheal Daube.
Ensuite, on va étiqueter nos données avec Treetagger et Talismane.

Pour Treetagger, on va utiliser le script "treetagger2xml-utf8"

Le script que l'on met ici est modifié pour l'environnement MacOS, il faudrait donc faire quelques changements pour que ça puisse fonctionner sous Windows.

Script en Perl

Dans notre script, on a deux fonction qui s'occupent de l'étiquatage. Et dans chaque fonction on voit des programmes externes. Pour vous expliquer en détail, notez les points suivants :

➝ Segmenter le fichier : tokenise-utf8.pl
➝ Etiqueter le fichier segmenté : tree-tagger et talismane
➝ Convertir le fichier texte segmenté et étiqueté en fichier xml : treetagger2xml-utf8.pl

Script Perl-BaO2 : Cliquez ici pour télécharger !

Remarques

Dans le code, vous allez voir qu'on était obligé de mettre quelques symboles pour pouvoir répérer les frontières des titres et des descriptions pour pouvoir travailler correctement dessus avec la Boite à Outils 3.
Regardez le code juste en dessous, ligne 17 et 18, vous pouvez voir qu'on ajoute à chaque fois le symbole § pour réperer la fin. ( U+00A7 est équivalent à § )
Et en meme temps, on ajoute aussi "££debuttitre££" et "££fintitre££" et "££debutdescription££" et enfin "££findescription££" que vous pouvez voir dans la ligne 21.

Résultats obtenus


Sortie TALISMANE 3208 : Cliquez ici pour voir !
Sortie TALISMANE 3210 : Cliquez ici pour voir !
Sortie TALISMANE 3214 : Cliquez ici pour voir !
Sortie TEXTE 3208 : Cliquez ici pour voir !
Sortie TEXTE 3210 : Cliquez ici pour voir !
Sortie TEXTE 3214 : Cliquez ici pour voir !

Les sorties XML sont des fichiers lourds à charger sur les navigateurs. On préfère donc mettre une capture d'écran pour vous montrer l'exemple.
En dessous de l'image, vous trouverez les liens pour les télécharger !

Exemple d'une sortie XML :

Sortie XML 3208 : Cliquez ici pour télécharger !
Sortie XML 3210 : Cliquez ici pour télécharger !
Sortie XML 3214 : Cliquez ici pour télécharger !




Script en Python

Script Python-BaO2 : Cliquez ici pour télécharger !

N'oubliez pas d'aller vers BaO3

Pour faire cela, il faudrait fermer cette fenetre et taper bao3 sur le terminal :)