BAO1 : Extraction

La BAO1 est la première étape de notre projet son but consiste à parcourir les répertoires de fichiers RSS et d'extraire par rubrique le titre et la description de chaque article.

Pour cela nous avons chosie la méthode PERL avec l'expression régulière.

ce script nous donne en sortie deux fichiers de résultat. L'un est en format de texte brut et l'autre est un fichier xml avec des balises.

Table(s)

3208-à la une 3210-international
3208-txt 3210-txt
3208-xml 3210-xml
description-txt description-txt
titre-txt titre-txt

Comments

  • Parcourir l'arborescence

    le corpus Le Monde RSS de l'année 2016 se compose de plusieurs répertoires organisés en rubriques et date d'aspiration des fils. Pour pouvoir traiter ces fichiers, il faut une partie du script qui peut parcourir l'arborescence.

    L'idée du script est assez simple.Tout d'abord on ouvre un dossier et on teste si ses éléments sont des fichiers xml ou pas. Si oui, on extrait ce qu'on veut en utilisant le script d'extraction.Si ce sont des dossiers, on ouvre les dossiers un par un pour refaire le teste.On peut ainsi parcourir toute arborescence jusqu'a trouver les fichier xml

  • L'extraction avec les expressions régulières

    En fait, c'est assez facile d'extraire ce qu'on veut dans le fichier RSS. Parce que chaque partie est englobée dans des balises spécifiques. Ce qu'on doit faire, c'est d'extraire le contenu entre les balises "titre" et "description".

    VISUALISER LES RESULTATS DANS CHAQUE CASES DU TABLEAU