Projet encadré 2

Accueil BAO1 BAO2 BAO3 BAO4 Analyse

BAO2





Le programme Perl disponible ici s'exécute depuis le terminal avec la commande suivante:

perl MonProg.pl Dossier_contenant_les_fils_RSS Numéro_de_la_rubrique_que_l'on_veut_traiter



Le programme sert à parcourir toute l'arborescence des fils RSS pour créer en sortie 4 fichiers tampons (où on trouve un titre et une description) et 2 fichiers sur lesquels on travaillera:



L'étiquetage se fait grace à la subroutine "étiquetage" qui déclenche le traitement de Treetagger sur les fils RSS de la rubrique choisie.

Dans le fichier de sortie, tout élément comprendra 3 balises "data":



Voici un aperçu du document .xml étiqueté:



La sortie .xml





Pour ce qui concerne la sortie .txt, il faudra charger le fichier dans Cordial et effectuer l'étiquetage du texte.

ATTENTION! pour être soumis au traitement de Cordial, un fichier doit être encodé en ISO et avoir le retour à la ligne de Windows!

Une fois l'élaboration terminée, Cordial produira en sortie un fichier .cnr à 3 colonnes:



Voici un aperçu du document .cnr étiqueté:



La sortie .cnr