Projet Encadré II

Objectif

Objectif BàO1 : extraire les contenus textuels des fils RSS de l'arborescence : les contenus des balises title et description.

Pour ce faire, nous avons employé trois méthodes:

1/ via Perl + Expression Régulière:
Cette méthode considère le texte comme un 'sac de caractères', dans lequel on va essayer de repérer certaines caractéristique;
ARCHIVE：
1）Le script perl avec expression régulière;
2) Sortie text de la rubrique CULTURE;
3) Sortie xml de la rubrique CULTURE;
4) Sorite texte de la rubrique LIVRE;
5) Sortie xml de la rubrique LIVRE;

2/ via Perl + XML::RSS(module Perl):
Cette seconde méthode prend en considération la structuration logique du texte (un arbre) et sa modélisation dans un programme pour au final n'avoir qu'à "cueillir" les feuilles textuelles visées !
ARCHIVE：
1）Le script perl avec module XML::RSS;
2) Sortie text de la rubrique CULTURE;
3) Sortie xml de la rubrique CULTURE;
4) Sorite texte de la rubrique LIVRE;
5) Sortie xml de la rubrique LIVRE;

3, via Python.
Bien sûr, Python, langage en plein essor. Rapide, surtout avec module lxml qui permet de faire xpath.
ARCHIVE:
1）Le script Python avec module lxml de Python;
2) Sortie text de la rubrique CULTURE;
3) Sortie xml de la rubrique CULTURE;
4) Sorite texte de la rubrique LIVRE;
5) Sortie xml de la rubrique LIVRE;

Conclusion

Comparaison des trois méthodes: 1, au niveau du temps de traitement; 2, au niveau de la sortie. Pour comparer deux dossiers, on peut lancer diff fichier1 fichier2 dans le terminal et le résultat, on voit tout de suite le résultat. La sortie de la méthode xmlrss de Perl contient le symbole "&" tel quel, alors que dans la sortie de la méthode avec regexp c'est écrit en "&"