Dans cette étape nous allons extraire les titres et les descriptions de chaque article des deux rubriques qu'on a choisies (International et Social).
Pour réaliser cela, il faut:
1- parcourir l'arborescence jusqu'au dernier fichier. Pour parcourir l'arborescence, nous avons utilisé une procédure dans le script perl que voici:
2- Repérer les balises qui contiennent le titre et la description dans chaque article.
3- Extraire le contenu qui se trouve entre ces balises.
4- Nettoyer le texte des entités html.
Le script Perl: