L'objectif de Bao1 est de parcourir l'arborescence et extraire le contenu textuelle dans les fichier xml. Le caractère du document 2019 décide que notre script doit être capable de parcourir un sous-document et puis renter à la racine pour commencer un nouveau parcours. En plus, les documents contiennent les fichiers .xml et aussi les fichier .txt. Il faut éviter les fichiers .txt pendant ce processus.
Premièrement, on emploie le perl pour cette tâche.
Le script perl contient deux partie: parcourir de l'arborescence et extraire le contenu textuelle des fichiers .xml. Les deux arguments au début du script permet de localiser le rubique à chercher. À l'aide de ces deux arguments, le script va ouvrir le fichier visé et continuer à extraire le contenu texuelle dans le fichier visé.
Deux méthodes sont possibles pour l'extraction: par la langage régulière ou par rss. On a observé que tous les titres et les déscriptions sont encardrés par les balises <\titre><\/titre> et <\description><\/description>. On peut simplement extraire le contenu dans ces balise par langage régulière.
Comme le script de perl, le script de python est aussi contient deux étape: trouver le chemin à un fichier visé et faire l'extraction.
Le première étape est accompli par le module "os" dans python. Ce module fournit une manière portable d'utiliser les fonctionnalités dépendantes du système d'exploitation. Simplement par une fonction os.walk('2019'), le script va parcourir tous les sous documents dans le document racine (2019) et renvoie le chemin du fichier.