Boite à Outil 1 sans module

Automatisation du filtrage sur un arbre de fils RSS

Cette première méthode pour la BAO1 n'utilise aucun module complémentaire. Ce programme parcourt une arborescence de fichiers XML et applique un traitement sur chacun des fichiers rencontrés au moment du parcours. En sortie, le programme extraira le contenu textuel des fils RSS dans deux fichiers, l´un au format TXT et l´autre au format XML. Tout d'abord, on initialise deux variables qui seront les entrées de notre programme : $rep , le dossier contenant tous les fichiers RSS et $rubrique, chiffre correspondante à la rubrique à traiter. La variable hash %redondant gardera à chaque fois le contenu du titre pour éviter la répétition des informations. En sortie, on va créer deux fichiers pour chaque rubrique, encodés en UTF-8 et nommés selon son format, soit « le_monde_$rubrique.txt » et « le_monde_$rubrique.xml ». Ensuite, on passe au sous-programme Perl nommé« parcoursarborescencefichiers », qui permet de parcourir tous les fichiers XML de l´arborescence des fils RSS. Ce sous-programme reçoit comme entrée le répertoire où se trouvent tous nos fichiers RSS. À chaque fois qu´il trouve un sous-répertoire, il l´ouvre et vérifie s´il s´agit d´un répertoire ou d´un document XML. Il répète ce procédure jusqu´à ce qu´il a fini toute l´arborescence. C´est à l´intérieur de ce sous-programme où on va ajouter le traitement de chaque fils RSS. Quand il trouve un fichier dont l´extension est «.xml » et le nom corresponde à la chiffre qu´on a donné en entrée comme rubrique, il passe aux traitements suivants :

Suppression des retours à la ligne
Concaténation de tout le contenu textuel dans une seule ligne, la variable $ensemble.
Supprimer les possibles espaces entre balises
Récupération des données textuelles des balises « titre » et « description » grâce à l´expression régulière : $ensemble =~ m/<item> *.+?<title>(.+?)<\/title>.+?<description>(.+?)<\/description>/g
Cette regexp repère les balises titre et description et en extrait le contenu textuel vers les variables de stockage $title et $description.
On vérifie qu´on n´imprime pas des doublons avec l´instruction if (!exists $redondant{"$title"}). Si cette information n´existe pas dans le hash« redondant », le résultat de l´instruction est« true » et on passe aux suivants traitements, si le résultat est« false », cela veut dire que cette variable a déja été lue et gardée donc on va pas la traiter. Dans le cas où le résultat est« true », on procède au nettoyage des données avec le sous-programme nommé« nettoyage ».
En dernier lieu, on imprime les données qu´on a obtenu comme résultats dans les deux fichiers.
Le script rend deux fichiers : un fichier au format texte brut qui contient tous les titres et descriptions, et un fichier XML qui comprend ces mêmes titres et descriptions balisés.
Voici les fichiers obtenus pour la rubrique 3476 par le biais du script : Rubrique 3476 XML Rubrique 3476 TXT
Voici les fichiers obtenus pour la rubrique 3238 par le biais du script : Rubrique 3238 XML Rubrique 3238 TXT
Voici les fichiers obtenus pour la rubrique 3546 par le biais du script : Rubrique 3546 XML Rubrique 3546 TXT
Voici les fichiers obtenus pour la rubrique livre (3260) par le biais du script : Rubrique 3260 XML Rubrique 3260 TXT

Pour lancer le script :
BAO1.pl nom_du_répertoire nom_de_la_rubrique

Télécharger le script :

Visualiser le script sans module :

#/usr/bin/perl

#déclarations des variables d'arguments 
#$rep = le nom du répertoire dans lequel on va aller chercher les fichiers à traiter
my $rep="$ARGV[0]"; 
#la rubrique qu'on va traiter 
my $rubrique="$ARGV[1]";
#tableau qu'on utilise pour vérifier que les données stockées étaient déjà récupérées (1 seule fois seulement) 
my %redondant;

#création du fichier TXT et du fichier XML en sortie 
open(FILEOUT,">:encoding(utf8)","le_monde_$rubrique.txt"); 
open(XML, ">:encoding(utf8)", "le_monde_$rubrique.xml");
#ecriture en-tête XML
print XML "<?xml version=\"1.0\" encoding=\"utf-8\" ?>\n";
print XML "<Document>\n";
print XML "<Extraction>\n\n";

# on s'assure que le nom du répertoire ne se termine pas par un "/"
$rep=~ s/[\/]$//;

#----------------------------------------
# on lance la récursion.... et elle se terminera après examen de toute l'arborescence
&parcoursarborescencefichiers($rep);	
#----------------------------------------

#on referme les balises d'en tête
print XML "</Extraction>\n\n";
print XML "</Document>\n";
#on ferme nos deux fichiers de sortie 
close XML;
close FILEOUT;

exit;
#----------------------------------------------
#definition de la fonction de parcours
sub parcoursarborescencefichiers {
	#declaration de la variable path, shift va supprimer le premier élément du tableau @_ et le renvoyer 
my $path = shift(@_);
#fonction qui permet d'ouvrir un repertoire à la manière de l'ouverture d'un fichier 
opendir(DIR, $path) or die "can't open $path: $!\n";
	#fonction readdir va rassembler dans ce tableau tous les fichiers/répertoires contenus dans le répertoire principal 
my @files = readdir(DIR);
closedir(DIR);
#pour chaque fichier parmi tous les fichiers
foreach my $file (@files) {
	#passe au suivant si l'élément sur lequel on est, est un chemin 
		next if $file =~ /^\.\.?$/;
next if $file =~ /^\._/;
next if $file =~ /^fil/;
		$file = $path."/".$file;
		#- d appliqué a un objet sera vrai si c'est un repertoire 
		if (-d $file) {
			print "<NOUVEAU REPERTOIRE> ==> ",$file,"\n";
			#on relance le parcours de repertoire 
			&parcoursarborescencefichiers($file);	#recurse!
			print "<FIN REPERTOIRE> ==> ",$file,"\n";
		}
		#on arrive sur fichier
		if (-f $file) {
			if ($file =~m/.*$rubrique.+\.xml$/){ #m=match si l'extension est xml
				$codage = "utf-8";
				
				#initialisation d'un variable ou seront stockées les données
				my $ensemble="";
				open(FILEIN, "<:encoding(utf8)", $file);

#tant qu'on lit une ligne du fichier $input on supprime le dernère caractère \n 
				while (my $ligne=<FILEIN>) {
					chomp $ligne;
					#suppression de la tabulation
					$ligne=~s/\t//g;
					#concatenation 
					$ensemble = $ensemble . $ligne; 
					$ensemble=~s/> +</></g;

}
				#tant qu'il existe dans mon texte quelque chose qui est la forme de l'expression régulière 
				#on sauvergarde dans des variables ce qui se trouve entre les balises <title> et <description>
				while ($ensemble=~ m/<item>.*?<title>(.*?)<\/title>.*?<description>(.*?)<\/description>/g) {
					if (!(exists $redondant{$title}))

{
					my $title=$1;
					#on lance la fonction point qui ajoute un point après chaque titre 
					my $title_point = &point($1);
					#on lance le nettoyage du titre et de la description 
					my $title_clean = &nettoyage($title_point);
					my $description=$2;
					$description = &nettoyage($2);

#initialisation du compteur pour compter les balises item 
					$compteur=$compteur+1;
					#incrémentation de la variable redondant 
					$redondant{$title}=1;
					#on écrit dans le fichier texte les titres et descriptions après nettoyage
					print FILEOUT "$title_clean\n$description\n\n"; 
					#on écrit dans le fichier XML
					print XML "<item num=\"$compteur\">\n<title>\n$title_clean</title>\n\n<description>\n$description</description>\n</item>\n\n"; 
					}
				}
				
				close FILEIN;

} 
		}
}
}

#---------------------------------------------------
#fonction qui ajoute un point après chaque titre

sub point {

my $var1=shift @_;
	$var1.=".";

return $var1;
}
#---------------------------------------------------
#fonction qui nettoie toutes les entités 
sub nettoyage {
my $ensemble=shift;
$ensemble =~ s/<.+?>//g;
$ensemble=~s/&/et/g;
$ensemble=~s/amp;/et/g;
$ensemble=~s/&/et/g;
return $ensemble;
}