Extraction des titres et descriptions

Cette première étape vise à parcourir une arborescence de fichiers afin de sélectionner des zones balisées dans des fils RSS récupérés sur le site web du journal Le Monde sur toute l'année 2016. Il s'agit des balises titre et description que l'on extrait et envoie dans deux fichiers: l'un avec l'extension .txt et l'autre avec l'extension .xml. Nous avons décidé de traiter les rubriques "cinema" et "culture". En effet, bien que distinctes dans les rubriques du Monde, ces deux thèmes nous semblent assez liés. Les comparer sera intéressant.

Voici la photo du script de la BAO1:

La récursion

Arrêtons-nous un peu sur le processus de descente dans l'arborescence de fichiers. Son déroulement, visible sur le script ci-dessus, se fait au moyen d'une procédure portant le nom "parcoursarborescencefichiers". La méthode s'inspire d'un mécanisme classique appelé la récursion associée au calcul d'un factoriel en mathématiques. Par exemple le factoriel de 10 est 10*9*8*7*6*5*4*3*2*1. Ainsi, 10 = 10 fois le factoriel de 9 et 9 = 9 fois le factoriel de 8 etc... Ce procédé rappelle analogiquement l'arborescence de dossiers en informatique au travers de laquelle on descent de répertoire en répertoire.

Script BAO1