Bienvenue dans la Boîte à Outils

Dans le cadre de ce projet, nous avons réalisé un travail en trois étapes.

****** Bienvenue dans la boîte à outils N°1 ! ******

Le corpus de travail est constitué de l'ensemble des fils RSS disponibles sur le site du journal "Le Monde" recueills tous les jours de l'année 2019.

Tout d'abord, commençons avec la BAO1 "extraction du texte" : Parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique)

Pour cela, nous avons réalisé un script Perl, ainsi que des RegExp. Le script nettoie également les éléments et les regroupe dans un fichier .txt.

Voici le script utilisé que vous trouverez ici

****** Bienvenue dans la Boîte à outils N°2 ! ******

Ici nous utilisons deux outils qui sont Talismane (sortie .txt) et Treetagger (sortie .xml)

Voici le script utilisé que vous trouverez ici

****** Bienvenue dans la Boîte à outils N°3 ! ******

Les fichiers obtenus dans cette Boîte à Outils sont construits grâce aux fichiers étiquetés que nous avons obtenu à l'aide des boîtes à outils N°1 et N°2.

Voici le script utilisé que vous trouverez ici