Dans la dernière étape, nous avons extrait tous les titres et les descriptions dans l'arborescence des fils RSS du Monde, l'objectif est de construire un fichier structuré en XML à l'aide un script perl qui parcourt l'arborescence de fichiers et applique un traitement d’étiquetage sur chacun des fichiers rencontrés au moment du parcours.
Cette fois-ci, nous avons choisi des rubriques qui nous intéresse : ''à la une'', ''international'' et ''entreprise'' comme des cibles, et il faudra un programme qui permet de donner l'étiquette aux données textuelles extraites à l'aide de deux logiciels Treetagger et Cordial, ce programme est basé sur le script réalisé à étape 1, c'est à dire qu'il est capable d'extraire les titres et les descriptions, mais aussi capable de traiter ces données extraites, nous reviendrons sur le script plus tard.
Cliquer pour afficher le script perl
Il prend le fichier en format txt comme entrée et il ne traite que les textes codés en ISO-latin1. Au final, avec cet outil nous avons obtenu un fichier en format cnr qui est composé par trois colonnes : token, lemme, et la catégorie grammaticale, et il se trouve dans chaque colonnes des informations correspondantes.
Ce logiciel est intégré dans le programme perl qui fait le parcours de l'arborescence et l'extraction. Le programme perl prend les fichiers au format XML et le nom de répertoire comme entrée. Au sein de notre programme, il appelle lui-même, d'autres scripts perl tokenise-utf8.pl
et programmes externes french-utf8.par
. Finalement, le programme perl va produire un fichier XML où les textes sont étiquetés.
Voici nos résultats issu de programme de l'étiquetage :