BOITES A OUTIL 1 : PYTHON

Récupérer les contenus textuels des titres et des descriptions des rubriques France, Europe et International avec python

I/Présentation des scripts

On lance le script depuis le répertoire PROJET-ENCADRE.

pour télécharger le script :

Temps : real 0m27.455s

Le script Perl est presque trois fois plus rapide que le script Python

Commande pour lancer le script

Il y a quatre argument à ajouter : le dossier contenant l'arborescence, la sortie.xml, la sortie.txt et le nom de la rubrique. On lance le script pour chaque rubrique à traiter.
Appeler le module d'extraction du texte

On utilise la fonction d'extraction crée dans un autre script (présenté ci dessous)
Fonction pour traiter la rubrique

J'ai trouvé cela plus simple de pouvoir utiliser directement le nom des rubriques pour lancer la commande. J'ai donc créée un dictionnaire poru associer au nom des rubriques leur numéro.
Fonction pour le parcours de l'arborescence, fonction parcours()

On parcours l'arborescence grâce à la fonction iterdir(). Dès que l'on arrive sur un fichier .xml qui correspond à notre rubrique, on peut lancer la fonction extract_un_fil()
Fonction main()

On crée deux liste vide, une pour les titres et une pour les descriptions. Cela va nous permettre d'éviter les doublons en vérifiant si le titre ou la description ont déjà été traité.e.s On récupère les arguments grâce au module sys.argv[]. Enfin, on va écrire le résultat de la fonction parcours() dans nos fichiers de sortie.xml et sortie.txt.

pour télécharger le script :

Compilation de la regex

Cette expression régulière permet de repérer les informations qui nous interesse dans les fils RSS
Fonction de nettoyage

La fonction nettoyage() permet de récupérer du texte propre (nettoyé de certains attributs comme CDATA etc.)
Fonction d'extraction du texte, extract_un_fil()

Cette fonction retourne la liste de descriptions et de titres qui permet d'éviter les doublons. C'est également cette fonction qui permet d'écrire les titres et les descriptions dans les fichiers de sortie.

Les sorties sont présentées par rubrique et par format dans le tableau ci-dessous.