Boîte à Outils

Sommaire de la page

  1. A propos de la BAO 1
  2. Script Bao1
  3. Script, liens de téléchargement
  4. Résultats BAO1 et Tableau Récapitulatif

A propos de la BAO 1

Familiarisation avec les données

La Bao 1 fut l'occasion du premier travail sur les données brutes du corpus. Comme nous l'avions déjà dit auparavant, nous possédions en effet les données issues du flux RSS du journal du monde de l'année 2013, ainsi qu'un corpus test de 2008 sous deux formats : XML et TXT.
Chacun étant classé par dossier Mois/Jour/Heure(toujours à 19h, heure de la copie des pages). Dans notre cas l'extraction se basait uniquement sur les fichiers XML.


fichiers à disposition pour l'extraction BAO1
fichiers à disposition pour l'extraction BAO1

Plus particulièrement nous devions, pour satisfaire aux besoins de l'exercice extraire les balises "title" et "description", avec la subtilité de ne pas extraire les premières balises "titre" et "description" (titre et description du document et non d'un article)

un fichier xml de l'année 2008, similaire à l'année 2013
un fichier xml de l'année 2008, similaire à l'année 2013

Du point du de vue du travail à réaliser il fallait donc :

Script Bao 1

Explications globales

Dès le début nous avions l'idée de séparer chacune des taches bien spécifiques à réaliser. En effet l'idée de traiter toutes les taches de la même façon, linéairement ne contribue pas à la portabilité. Comme certaines des taches sont amenées à être de nouveau utilisée, soit sur des parties annexes du projet, soit dans de futures activités, le découpage par fonction allait, selon nous, ici de soi. Nous avons donc réalisé un script à strate, chaque partie réalisée, appelant la fonction suivante. Passons maintenant aux explications centrées sur le script.

Nous n'allons pas détailler chaque ligne, mais juste les idées globales, le script par lui-même étant disponible ensuite :