menu
1
2
3
4

Bienvenue à La Boîte à Outils !

Par Rachel Bawden - M1 Ingénierie Linguistique

Ici vous trouverez mes travaux réalisés dans le cadre du cours Boîte à Outils, M1 Ingénierie Linguistique. Je remercie Serge Fleury, Jean-Michel Daube et Rachid Belmouhoub pour leur aide pendant ce semestre.

La Boîte à Outils est une série de traitements d'un corpus de fils RSS :

  1. La BAO 1 est l'extraction des informations contenues dans les fils et leurs répartition en rubriques.
  2. La BAO 2 est l'étiquetage de ces informations, par une modification de la BAO 1 via TreeTagger et Cordial.
  3. La BAO 3 est l'extraction de motifs syntaxiques à partir des sorties de la BAO 2.
  4. La BAO 4 est la visualisation et filtrage de ces motifs via le programme patron2graphe.exe.

Le corpus

Les fichiers en entrée sont les fils RSS du journal Le Monde de l’année 2012 et il y avait beaucoup à dire ! Mises à jour une fois par jour, ces données très abondantes sont organisées par mois, par jour et par rubrique.

L’organisation arborescente de ces fichiers est comme suit (ceci est important lorsqu’on accède aux fichiers depuis le programme perl) :

Arborescence

Les fichiers sur lesquels on travaille ont une structure commune puisqu’ils sont tous de type RSS, qui leur impose une syntaxe spécifique.

Qu’est-ce que RSS ?

[ Vers le haut ]

RSS est une famille de formats de partage (syndication) du contenu Web. Un fichier RSS contient les mises à jour d’un site Internet et facilite l’accès automatique à ce nouveau contenu. Le fait de regrouper dans un même endroit le produit des fils RSS s’appelle agrégation. Le corpus de ce projet est alors une agrégation des fils RSS du Monde.

Le contenu est produit de manière automatique et structurée et c'est cette structure imposée qui facilite la tâche de parcourir les fichiers afin de sélectionner les informations pertinentes.

Comme tous les fichiers XML, les fichiers RSS sont structurés à l’aide de balises, qui démarquent des zones du fichier. De plus, les fichiers spécifiquement RSS ont des règles qui imposent un répertoire de balises possibles, ce qui assure la structure commune de tous les fichiers du corpus.

<rss version="XX"> <!-- déclaration du type de fichier (RSS) --> <channel> <!-- déclaration du canal (le flux) --> <title>Titre du canal</title> <link>l'URL du canal</link> <description>Description du canal</description> </channel> <item> <title>Titre de l’item 1</title> <link>l’URL de l’item 1</link> <description>Description de l'item 1</description> </item> <item> <title>Titre de l’item 2</title> <link>l’URL de l’item 2</link> <description>Description de l'item 2</description> </item> ... </rss>
[ Vers le haut ]
Site et design par Rachel Bawden, Plurital 2013