EXTRACTION ET NETTOYAGE





Dans cette étape nous allons extraire les titres et les descriptions de chaque article des deux rubriques qu'on a choisies (International et Social).

Pour réaliser cela, il faut:

1- parcourir l'arborescence jusqu'au dernier fichier. Pour parcourir l'arborescence, nous avons utilisé une procédure dans le script perl que voici:



2- Repérer les balises qui contiennent le titre et la description dans chaque article.
3- Extraire le contenu qui se trouve entre ces balises.



4- Nettoyer le texte des entités html.



Le script Perl:

Voici le résultat obtenu: social.txt    international.txt