Boite à outil Projet encadré 2

Boite à outil 1

Extraction du contenu textuel

Cette boîte à outils sert à extraire les contenues textuels des "titre" et "description" de chaque fichier d'un corpus de fils RSS du journal Le Monde de l'année 2021, à les concaténer pour ensuite les mettre dans un seul fichier correspondant à chaque rubrique.

Le programme donne en sortie deux fichiers de formats différents:

Code perl
Code python

Résultats

Texte :

aperçu du fichier texte sorti par Perl
Perl
aperçu du fichier texte sorti par Python
Python

Les sorties des deux méthodes semblent à première vue les mêmes. Cependant, quand on regarde en détail, on constate que les textes ne sont pas identiques entre Perl et Python. En effet, les nombres de textes traités ne sont pas identiques.


Comparaison des nombres de lignes
Les nombres de lignes : Perl (à gauche) et Python (à droite)

Idem pour XML.

XML :

aperçu du fichier XML
Perl
Python

Nous avons comparer plusieurs langages et vu des particularités de chacun. En fonction de ce qu'on cherche, on peut utiliser un meilleur langage.


Fichier résultat : text

Fichier résultat : text

Fichier résultat : xml

Fichier résultat : xml