Cette boîte à outils sert à extraire les contenues textuels des "titre" et "description" de chaque fichier d'un corpus de fils RSS du journal Le Monde de l'année 2021, à les concaténer pour ensuite les mettre dans un seul fichier correspondant à chaque rubrique.
Le programme donne en sortie deux fichiers de formats différents:
Texte :
Les sorties des deux méthodes semblent à première vue les mêmes. Cependant, quand on regarde en détail, on constate que les textes ne sont pas identiques entre Perl et Python. En effet, les nombres de textes traités ne sont pas identiques.
Idem pour XML.
XML :
Nous avons comparer plusieurs langages et vu des particularités de chacun. En fonction de ce qu'on cherche, on peut utiliser un meilleur langage.