Boîte à outils 1

Extraction des titres et descriptions

Phase 1 :

Dans cette première étape du projet, nous avons écrit un script de filtrage et de nettoyage en Perl qui extrait le contenu des balises <titre> et <description> d’articles du journal Le Monde.

Le répertoire 2008 : corpus de test — 15 jours de l’année 2008

Les fichiers XML sont soulignés en rouge

#/usr/bin/perl
<<DOC; 
Votre Nom : 
JANVIER 2005
 usage : perl parcours-arborescence-fichiers repertoire-a-parcourir
 Le programme prend en entrée le nom du répertoire contenant les fichiers à traiter
 Le programme construit en sortie un fichier structuré contenant sur chaque ligne le nom du fichier et le résultat du filtrage :
<FICHIER><NOM>du fichier</NOM></FICHIER><CONTENU>du filtrage</CONTENU></FICHIER>
DOC
#-----------------------------------------------------------
my $rep="$ARGV[0]";
# on s'assure que le nom du répertoire ne se termine pas par un "/"
$rep=~ s/[\/]$//;
# on initialise une variable contenant le flux de sortie 
my $DUMPFULL1="";
my $DUMPFULL2="";
my $cptArticle=0;
my %dicoDesTitres=();
my %dicoDesDescriptions=();
#----------------------------------------
my $output1="SORTIE.txt";
if (!open (FILEOUTTXT,">$output1")) { die "Pb a l'ouverture du fichier $output1"};
my $output2="SORTIE.xml";
if (!open (FILEOUTXML,">$output2")) { die "Pb a l'ouverture du fichier $output2"};
#----------------------------------------
&parcoursarborescencefichiers($rep);	#recurse!
#----------------------------------------
print FILEOUTXML "<?xml version=\"1.0\" encoding=\"iso-8859-1\" ?>\n";
print FILEOUTXML "<PARCOURS>\n";
print FILEOUTXML "<NOM>NK&MH</NOM>\n";
print FILEOUTXML "<FILTRAGE>".$DUMPFULL1."</FILTRAGE>\n";
print FILEOUTXML "</PARCOURS>\n";
close(FILEOUTXML);
print FILEOUTTXT $DUMPFULL2;
close(FILEOUTTXT);
exit;
#----------------------------------------------
sub parcoursarborescencefichiers {
    my $path = shift(@_);
    opendir(DIR, $path) or die "can't open $path: $!\n";
    my @files = readdir(DIR);
    closedir(DIR);
    foreach my $file (@files) {
		next if $file =~ /^\.\.?$/;
		$file = $path."/".$file;
		if (-d $file) {
			&parcoursarborescencefichiers($file);	#recurse!
		}
		if (-f $file) {
			if ($file=~/\.xml$/) {
				print $i++,"\n";
				open(FILEIN,$file);
				while (my $ligne=<FILEIN>) {
				    if ($ligne=~/<\/item>/) {
					$DUMPFULL1.="</article>\n";
				    }
				    if ($ligne=~/<item>/) {
					$cptArticle++;
					$DUMPFULL1.="<article numero=\"$cptArticle\">\n";
				    }
				    if ($ligne=~/<description>(.+?)<\/description>/) {
					my $text=$1;
					$text=&nettoieText($text);
					if (!(exists($dicoDesDescriptions{$text}))) {
					    $DUMPFULL1.="<description>$text</description>\n";
					    $DUMPFULL2.=$text."\n";
					    $dicoDesDescriptions{$text}++;
					}
					else {
					    $dicoDesDescriptions{$text}++;
					    $DUMPFULL1.="<description>-</description>\n";
					}
				    }
				    if ($ligne=~/<title>(.+?)<\/title>/)  {
					my $text=$1;
					$text=&nettoieText($text);
					if (!(exists($dicoDesTitres{$text}))) {
					    $DUMPFULL1.="<abstract>$text</abstract>\n";
					    $DUMPFULL2.=$text."\n";
					    $dicoDesTitres{$text}++;
					}
					else {
					    $dicoDesTitres{$text}++;
					    $DUMPFULL1.="<abstract>-</abstract>\n";
					}
				    }
				    
				}
				close(FILEIN);
			}
		}
    }
}
#----------------------------------------------
sub nettoieText {
    my $texte=shift;
    $texte =~ s/&lt;/</g;
    $texte =~ s/&gt;/>/g;
    $texte =~ s/<a href[^>]+>//g;
    $texte =~ s/<img[^>]+>//g;
    $texte =~ s/<\/a>//g;
    $texte =~ s/&#38;#39;/'/g;
    $texte =~ s/&#38;#34;/"/g;
    $texte =~ s/<[^>]+>//g;
    $texte =~ s/&#233;/é/g;
    $texte =~ s/&#234;/ê/g;
    return $texte;
}

Nos sorties :

1. SORTIE.txt : un fichier TXT brut avec le contenu des balises <title></title> et <description></description>

Un échantillon de fichier txt :

2. SORTIE.xml : un fichier XML avec les numéros des articles et le contenu des balises <title></title> et <description></description> dans les balises <abstract></abstract> et <description></description> respectivement

Un échantillon de fichier xml :

Phase 2 :

Ce deuxième script permet d’extraire le contenu des titres et descriptions par rubrique. Nous avons en sortie 2 fichiers pour chacune des rubriques : un fichier en texte brut et un fichier XML.

#/usr/bin/perl
use Unicode::String qw(utf8);
#-----------------------------------------------------------
my $rep="$ARGV[0]";
# on s'assure que le nom du répertoire ne se termine pas par un "/"
$rep=~ s/[\/]$//;
# on initialise une variable contenant le flux de sortie 
my %dictionnairedesitems=();
my %dictionnairesdesrubriques=();
#----------------------------------------
&parcoursarborescencefichierspourrepererlesrubriques($rep);	# on recupere les rubriques...
#----------------------------------------
my @liste_rubriques = keys(%dictionnairesdesrubriques);
foreach my $rub (@liste_rubriques) {
    #print $rub,"\n";
    #----------------------------------------
    my $output1="SORTIE-extract-txt-".$rub.".xml";
    my $output2="SORTIE-extract-txt-".$rub.".txt";
    if (!open (FILEOUT1,">:encoding(utf-8)", $output1)) { die "Pb a l'ouverture du fichier $output1"};
    if (!open (FILEOUT2,">:encoding(utf-8)",$output2)) { die "Pb a l'ouverture du fichier $output2"};
    print FILEOUT1 "<?xml version=\"1.0\" encoding=\"utf-8\" ?>\n";
    print FILEOUT1 "<PARCOURS>\n";
    close(FILEOUT1);
    close(FILEOUT2);
}
#----------------------------------------
&parcoursarborescencefichiers($rep);	# on traite tous les fichiers
#----------------------------------------
foreach my $rub (@liste_rubriques) {
    my $output1="SORTIE-extract-txt-".$rub.".xml";
    if (!open (FILEOUT1,">>:encoding(utf-8)", $output1)) { die "Pb a l'ouverture du fichier $output1"};
    print FILEOUT1 "</PARCOURS>\n";
    close(FILEOUT1);
}
exit;
#----------------------------------------------
#----------------------------------------------
sub parcoursarborescencefichiers {
    my $path = shift(@_);
    opendir(DIR, $path) or die "can't open $path: $!\n";
    my @files = readdir(DIR);
    closedir(DIR);
    foreach my $file (@files) {
	next if $file =~ /^\.\.?$/;
	$file = $path."/".$file;
	if (-d $file) {
	    &parcoursarborescencefichiers($file);	#recurse!
	}
	if (-f $file) {
	    if (($file=~/\.xml$/) && ($file!~/\/fil.+\.xml$/)) {
		open(FILE, $file);
		#print "Traitement de :\n$file\n";
		my $texte="";
		while (my $ligne=<FILE>) {
		    $ligne =~ s/\n//g;
		    $texte .= $ligne;
		}
		close(FILE);
		$texte=~/encoding ?= ?[\'\"]([^\'\"]+)[\'\"]/i;
		my $encodage=$1;
		#print "ENCODAGE : $encodage \n";
		if ($encodage ne "") {
		    my $tmptexteXML="<file>\n";
		    $tmptexteXML.="<name>$file</name>\n";
		    $texte =~ s/> *</></g;
		    $texte=~/<pubDate>([^<]+)<\/pubDate>/;
		    $tmptexteXML.="<date>$1</date>\n";
		    $tmptexteXML.="<items>\n";
		    my $tmptexteBRUT="";
		    open(FILE,"<:encoding($encodage)", $file);
		    #print "Traitement de :\n$file\n";
		    $texte="";
		    while (my $ligne=<FILE>) {
			$ligne =~ s/\n//g;
			$texte .= $ligne;
		    }
		    close(FILE);
		    $texte=~s/> *</></g;
		    # on recherche la rubrique
		    $texte=~/<channel><title>([^<]+)<\/title>/;
		    my $rub=$1;
		    $rub=~s/é/e/gi;
		    $rub=~s/è/e/gi;
		    $rub=~s/ê/e/gi;
		    $rub=~s/à/a/gi;
		    $rub=~ s/Le ?Monde.fr ?://;
		    $rub=~ s/ //g;
		    $rub=uc($rub);
		    #print $rub,"\n";
		    #----------------------------------------
		    my $output1="SORTIE-extract-txt-".$rub.".xml";
		    my $output2="SORTIE-extract-txt-".$rub.".txt";
		    if (!open (FILEOUT1,">>:encoding(utf-8)", $output1)) { die "Pb a l'ouverture du fichier $output1"};
		    if (!open (FILEOUT2,">>:encoding(utf-8)", $output2)) { die "Pb a l'ouverture du fichier $output2"};
		    #----------------------------------------
		    while ($texte =~ /<item><title>(.+?)<\/title>.+?<description>(.+?)<\/description>/g) {
			my $titre=$1;
			my $resume=$2;
			#print "T : $titre \n R : $resume \n";
			if (uc($encodage) ne "UTF-8") {utf8($titre);utf8($resume);}
			$titre = &nettoietexte($1);
			$resume = &nettoietexte($2);
			if (!(exists($dictionnairedesitems{$resume}))) {
			    $tmptexteBRUT.="§ $titre \n";
			    $tmptexteBRUT.="$resume \n";
			    $tmptexteXML.="<item><title>$titre</title><abstract>$resume</abstract></item>\n";
			    $dictionnairedesitems{$resume}++;
			}
			else {
			    $tmptexteXML.="<item><title>-</title><abstract>-</abstract></item>\n";
			}
		    }
		    $tmptexteXML.="</items>\n</file>\n";
		    print FILEOUT1 $tmptexteXML;
		    print FILEOUT2 $tmptexteBRUT;
		    close FILEOUT1;
		    close FILEOUT2;
		}
		else {
		    print "$file ==> $encodage \n";
		}
	    }
	}
    }
}
#----------------------------------------------------
sub nettoietexte {
    my $texte=shift;
    $texte =~ s/&lt;/</g;
    $texte =~ s/&gt;/>/g;
    $texte =~ s/<a href[^>]+>//g;
    $texte =~ s/<img[^>]+>//g;
    $texte =~ s/<\/a>//g;
    $texte =~ s/&#38;#39;/'/g;
    $texte =~ s/&#38;#34;/"/g;
    $texte =~ s/&#233;/é/g;
    $texte =~ s/&#234;/ê/g;
    $texte =~ s/<[^>]+>//g;
    $texte =~ s/&nbsp;/ /g;
    $texte=~s/&#39;/'/g;
    $texte=~s/&#34;/"/g;
    $texte=~s/&amp;#39;/'/g;
    $texte=~s/&amp;#34;/"/g;
    return $texte;
}
#-----------------------------------------------------------------------------------
sub parcoursarborescencefichierspourrepererlesrubriques {
    my $path = shift(@_);
    opendir(DIR, $path) or die "can't open $path: $!\n";
    my @files = readdir(DIR);
    closedir(DIR);
    foreach my $file (@files) {
	next if $file =~ /^\.\.?$/;
	$file = $path."/".$file;
	if (-d $file) {
	    &parcoursarborescencefichierspourrepererlesrubriques($file);	#recurse!
	}
	if (-f $file) {
	    if (($file=~/\.xml$/) && ($file!~/\/fil.+\.xml$/)) {
		open(FILE,$file);
		#print "Traitement de :\n$file\n";
		my $texte="";
		while (my $ligne=<FILE>) {
		    $ligne =~ s/\n//g;
		    $texte .= $ligne;
		}
		close(FILE);
		$texte=~/encoding ?= ?[\'\"]([^\'\"]+)[\'\"]/i;
		my $encodage=$1;
		if ($encodage ne "") {
		    open(FILE,"<:encoding($encodage)", $file);
		    #print "Traitement de :\n$file\n";
		    $texte="";
		    while (my $ligne=<FILE>) {
			$ligne =~ s/\n//g;
			$texte .= $ligne;
		    }
		    close(FILE);
		    $texte =~ s/> *</></g;
		    if ($texte=~ /<channel><title>([^>]+)<\/title>/) {
			my $rub=$1;
			$rub=~s/é/e/gi;
			$rub=~s/è/e/gi;
			$rub=~s/ê/e/gi;
			$rub=~s/à/a/gi;
			$rub=~ s/Le ?Monde.fr ?://i;
			$rub=~ s/ //g;
			$rub=uc($rub);
			$dictionnairesdesrubriques{$rub}++;
		    }
		}
		else {
		    #print "$file ==> $encodage \n";
		}
	    }
	}
    }
}

Un échantillon de la sortie de fichiers :

Les fichiers XML sont soulignés en rouge

Phase 3 :

Le dernier script nous permet de choisir la rubrique dont nous voulons extraire le contenu des titres et descriptions. En sortie : un fichier TXT et un fichier XML correspondant à la rubrique passée en argument.

Nous avons exécuté ce script sur le corpus 2016 des fils RSS du journal Le Monde, plus précisement pour la rubrique Science.