contact

Boîtes à Outil n°2, aka BàO2

On prend (presque) les mêmes...

Pour cette étape, le but est d’obtenir un texte qui soit étiqueté de façon morphosyntaxique. Pour cela nous avons à notre disposition deux programmes différents : CORDIAL et TREETAGGER.

Et on repart sur le chantier!

Pour CORDIAL :

CORDIAL prend en fichier d’entré et renvoie en fichier de sortie des fichiers format txt.

C’est la partie la plus simple puisqu’il n’y a aucun script à écrire, uniquement un programme à comprendre, avec un certain nombre de choix à faire.

Forcément, ça aurait plutôt tendance à faire peur au premier abord! Mais comme qui dirait, "on s'y fait!"

Par contre, CORDIAL comporte plusieurs inconvénients :

- Il ne fonctionne que sous Windows.

- C’est un programme payant dont la licence est suffisamment chère pour nous dissuader de l’acheter (la bagatelle de 912€, rien que ça). Et même si nous avions les finances, la fonction qui nous intéresse ne se trouve pas sur la version familiale. Tout ça pour dire qu’au final, et pour une fois, il faut obligatoirement passer par les PC de la fac.

Finalement, c'est plutôt simple.

Cliquez ici pour télécharger les résultats de la BàO 2 pour Cordial

Pout TREETAGGER :

C’est là que l’affaire se corse… Car treetagger ne dispose pas d’une interface graphique comme CORDIAL ! Il nous faut donc l’inclure dans notre scripte de BàO1 si on est sous Windows, ou bien l’installer sur l’ordinateur si on est sous Linux ou Mac. De là, il y existe deux façons de procéder : Soit on étiquète le texte au fur et à mesure de l’extraction, soit on extrait, puis on étiquète tout à la fin. Les deux méthodes fonctionnent et sont complètement opérationnelles, la petite différence se trouve dans le temps d’exécution ! En effet, si on n’étiquète au fur et à mesure, cela prend beaucoup de temps…42h56min, rien de que ça ! Autant dire qu’il faut être certain de ce que l’on fait avant d’appuyer sur « Entré ». De l’autre côté, si on étiquète tout à la fin, cela ne prend qu’une trentaine de minutes.

Au final, c’est la façon dont la BàO1 a été construite qui va plus ou moins déterminer la méthode à prendre pour la BàO2 !

Selon les appels à Treetagger, le programme mettra plus ou moins de temps, le plus rapide étant de traiter les fichiers après l'obtention de la version définitive, c'est-à-dire de l'accoler à la BàO1, mais sans l'enchasser dans le traitement initial.

lien vers le script comprenant le version enchassée ici !

lien vers le script comprenant le version accolée ici !

Cliquez ici pour télécharger les résultats de la BàO 2 avec Treetagger

Mais rien n'est suffisant pour durer, et la pluie se fait bientôt entendre.

Cette BAO ne fait n’échappe pas à la règle des problèmes, ça serait trop beau pour être vrai !

1. CORDIAL et l’ISO 8859-1

Et oui ! Même si nous avons pris grand soin d’avoir tous nos fichiers bien encodés comme il faut en UTF-8, CORDIAL lui, n’accepte que l’ISO ! Il a donc fallut tout transcoder pour pouvoir faire quelque chose de nos données.

Cette étape de transcodage peut mener à quelques petits soucis, comme un mot ou un bout de texte qui refuse d’être étiqueté. Evidement si on vous en parle, c’est que nous avons eu le cas, avec le fichier « International » et le groupe nominal « gouvernement vénézuélien ». Nous avons considéré que comme le groupe nominal ne représentait qu’une infime partie du corpus total, nous pouvions nous en débarrasser manu-militari sans autre forme de procès.

2. Imbrication du bout de code TREETAGGER

Même si ce ne sont que quelques lignes de codes, il n’est pas non plus évident d’inclure TREETARGGER dans le code déjà existant. En effet le programme prend un certain nombre d’options pour fonctionner, et même si pour le coup nous avons les bons fichiers d’entrée (en UTF-8), il nous faut construire des fichiers de sortie en .xml qui soit bien formés. Bien sûr il est toujours mieux d’avoir des fichiers avec leur ligne de déclaration, les balises racines et etc., mais le plus important cette fois, est surtout d’avoir nos données organisées de façon strictes et régulières. Cela va être absolument primordial pour la suite de notre projet encadré.

Ouf, c'est fini! Enfin, pas tout à fait...

Puisse que nous avons étiqueté notre texte, nous pouvons désormais en extraire des patrons morphosyntaxiques ! Pour ce faire, rendez-vous à la BAO3 !