Dans le cadre de ce projet, nous allons travailler à partir de fils RSS tirés du site Le Monde durant les années 2011. Notre travail consiste à construire differentes boites à outils. Les étapes de notre projet sont les suivantes:
L'entrée pour cette partie du projet est un corpus constitué du contenu des fils RSS . Ces fils RSS sont eux-mêmes au format XML. l s'agit d'écrire un script perl permettant de filtrer et de nettoyer le contenu des fichiers XML afin d'obtenir un texte brut qui servira ensuite pour la boîte à outils 2.
Le but de cette boîte est d'annoter les contenus textuels extraits grâce à la boîte n°1 avec des étiquettes morpho-syntaxiques à l'aide d'outils comme Cordial ou TreeTagger.
Dans cette boîte nous allons faire de l'extraction de patrons syntaxiques en utilisant Le résultat de la boîte à outils 2.
Dans cette dernière boîte à outils, nous allons produire, à partir des patrons syntaxiques extraits, des graphes permettant de mettre en valeur les relations entretenues par les différents éléments.
RSS (sigle venant de l'anglais « Rich Site Summary ») est une famille de formats de données basés sur XML et utilisés pour la syndication de contenu Web.
Trois formats peuvent être désignés par ces initiales :
-Rich Site Summary (RSS 0.91) ;
-RDF Site Summary (RSS 0.90 et 1.0) ;
pReally Simple Syndication (RSS 2.0).
On parle aussi souvent de RSS pour désigner le format Atom.Un flux RSS est une ressource Web dont le contenu est produit automatiquement (sauf cas exceptionnels) en fonction des mises à jour d’un site Web. Les flux RSS sont souvent utilisés par les sites d'actualité et les blogs pour présenter les titres des dernières informations consultables en ligne.
Extrait de la page RSS: journal Le Monde
Par le biais de ce site, nous tenions à remercier les enseignants de cette 1ère année de Master sans qui nous ne serions pas là à vous faire une dédicace.Nous tenons à remercier Mr Fleury, Mr Daube et Mr Belmehoub