Boîte à Outils 1: Extraction des titres et descriptions

Le but de cette bao est d'extraire les titres et descriptions de tous les articles correspondants à la rubrique choisie parus dans Le Monde en 2016. Pour ce faire, nous utilisons un script perl prenant comme arguments un dossier contenant toute l'arborescence du flux RSS ainsi que le code de la rubrique choisie.

La fonction "coeur" du script permet d'explorer tous les dossiers de l'arborescence et d'extraire les données lorsqu'elle tombe sur un fichier XML tandis qu'elle rentrera dans le dossier enfant lorsqu'il n'y a aucun document XML. Ce script nous créée deux fichiers: une sortie texte et une sortie au format XML.

Visualiser le script

Fichier txt créé (pour Cordial)

Fichier XML créé

  • La boite à outils 2

    Le deuxième élément de notre chaîne nous permettra d'annoter morphosyntaxiquement chaque mot des titres et descriptions

  • La boite à outils 3

    Grâce à cette étape, nous pouvons extraire des chaines de mots correspondants à des patrons morphosyntaxiques choisis (par exemple NOM ADJECTIF) dans les titres et descriptions précédemment collectés.

  • La boite à outils 4

    Enfin, nous transformerons les patrons morphosyntaxiques en graphes afin de les visualiser