Entrée : tous les fichiers XML du dossier 2016 de la rubrique "International".
Sortie : 3210-etiquete.xml, UTF-8
Explications :
La première partie du script se base celui de la BaO1, la seconde partie est un sous-programme qui réalise l'étiquetage.
Comme lors de la BaO1, le script "BAO2.pl" prend en paramètre :
Commande:
perl BAO2.pl 2016 3210
Dans un premier temps, ce script va parcourir toute l'arborescence, ensuite il va extraire et étiqueter le contenu textuel des balises title et description des fichiers .xml de la rubrique choisie (exemple : 0,2-3210,.-0,0.xml).
Le fichier produit est un fichier XML étiqueté avec Treetagger.
Entrée : 3210-iso.txt, ISO-8859-15
Sortie : 3210.cnr, ISO-8859-15
Explications :
Le script de la BaO1 nous a fourni un fichier TXT en UTF-8 dont nous aurions dû nous servir pour réaliser l'étiquetage. Mais la version de Cordial que nous possédons ne supporte que des fichiers encodés en ISO. Nous avons voulu utiliser la commande iconv, mais nous nous sommes heurtées à quelques problèmes d'encodage, que nous détaillons ici. Nous avons donc très légèrement modifié le script de la BaO1 pour prendre en compte ces problèmes d'encodage.
Le fichier produit est un fichier CNR étiqueté avec Cordial.
Veuillez cliquer ici pour afficher le code...