Boîte à Outils 1: Extraction des titres et descriptions
Le but de cette bao est d'extraire les titres et descriptions de tous les articles correspondants à la rubrique choisie parus dans Le Monde en 2016. Pour ce faire, nous utilisons un script perl prenant comme arguments un dossier contenant toute l'arborescence du flux RSS ainsi que le code de la rubrique choisie.
La fonction "coeur" du script permet d'explorer tous les dossiers de l'arborescence et d'extraire les données lorsqu'elle tombe sur un fichier XML tandis qu'elle rentrera dans le dossier enfant lorsqu'il n'y a aucun document XML. Ce script nous créée deux fichiers: une sortie texte et une sortie au format XML.