🇫🇷 BIENVENUE

 

🇨🇳 欢迎

 

🇰🇷 환영합니다

 

🇬🇷 ΚΑΛΩΣ ΗΡΘΑΤΕ

BÀO 1



Objectifs

L'objectif de Bao1 est de parcourir l'arborescence et extraire le contenu textuelle dans les fichier xml. Le caractère du document 2019 décide que notre script doit être capable de parcourir un sous-document et puis renter à la racine pour commencer un nouveau parcours. En plus, les documents contiennent les fichiers .xml et aussi les fichier .txt. Il faut éviter les fichiers .txt pendant ce processus.

Méthodes

PERL

Premièrement, on emploie le perl pour cette tâche.
Le script perl contient deux partie: parcourir de l'arborescence et extraire le contenu textuelle des fichiers .xml. Les deux arguments au début du script permet de localiser le rubique à chercher. À l'aide de ces deux arguments, le script va ouvrir le fichier visé et continuer à extraire le contenu texuelle dans le fichier visé.
Deux méthodes sont possibles pour l'extraction: par la langage régulière ou par rss. On a observé que tous les titres et les déscriptions sont encardrés par les balises <\titre><\/titre> et <\description><\/description>. On peut simplement extraire le contenu dans ces balise par langage régulière.



Ensuite, on met le titre et sa déscription correspondante dans un hash table qui permet d'établir un lien entre le titre (le clé) et la déscription (valeur de la clé).



À la fin, on néttoye les résultat par une fonction "nettoyage" qui permet de remplacer tous les bruit avec une chaîne de caractère vide.



Ce résultat peut aussi être atteint par XML::RSS. La théorie de cette méthode est proche que la méthode on emploie dans notre script de python. Ainsi, on n'explique pas dans cette partie.

Méthodes

PYTHON

Comme le script de perl, le script de python est aussi contient deux étape: trouver le chemin à un fichier visé et faire l'extraction.
Le première étape est accompli par le module "os" dans python. Ce module fournit une manière portable d'utiliser les fonctionnalités dépendantes du système d'exploitation. Simplement par une fonction os.walk('2019'), le script va parcourir tous les sous documents dans le document racine (2019) et renvoie le chemin du fichier.



Ensuite, on utilise le module "etree" pour extraire le contenu textuel dans le fichier .xml. Par ce module, on peut traiter le fichier .xml par xpath dans python.



La fonction get_text() nous renvoie un tuple de trois élément. Ensuite, on peut simple stocker les premier deux éléments dans les fichiers sorties (un txt et un xml). Pendant l'écriture de fichier .xml, on a emploie encore une fois le module "etree". La fonction .SubElement permet de créer une structure hiéarchique.



Scripts Perl



Résultats







Scripts Python




Résultats Python