EXTRACTION ET NETTOYAGE

Dans cette étape nous allons extraire les titres et les descriptions de chaque article des deux rubriques qu'on a choisies (International et Social).

Pour réaliser cela, il faut:

1- parcourir l'arborescence jusqu'au dernier fichier. Pour parcourir l'arborescence, nous avons utilisé une procédure dans le script perl que voici:

2- Repérer les balises qui contiennent le titre et la description dans chaque article.
3- Extraire le contenu qui se trouve entre ces balises.

4- Nettoyer le texte des entités html.

Le script Perl:

Voici le résultat obtenu: social.txt international.txt