Tribulations du Monde

Mot officiel du Lundi 8 février 2016
Programmation et Projet Encadré 2.

Phase 1

Parcours de l'arborescence, détéction des fichiers RSS et nettoyage.

Phase 2

Annotation automatique en parties du discours.

Phase 3

Filtrage de patrons syntaxiques.

Phase 4

Production de graphes.

Les difficultés du projet

Les principales notions apprises et les obstacles surmontés dans la réalisation du projet.

Parcours de l'arborescence

Le parcours se fait soit en pur perl (en parcourant l'arborescence de manière récursive si l'on a affaire à un dossier) et grâce au module XML::RSS.

Le Format RSS

Les fils RSS sont des documents XML, dont nous extrayons le titre et la descriptions des articles associés. C'est la Surface du Monde

Extraction du texte

Par ailleurs, nous travaillons aussi sur le contenu des articles en tant que tels, la Profondeur du Monde.

Étiquetage automatique

L'étiquetage est fait soit avec TreeTagger pendant l'exécution des scripts, soit à l'extérieur de ceux-ci avec Cordial, celui-ci ne pouvnt être exécuté en ligne de commande.

Patrons syntaxiques

Nous avons extrait deux patrons : NOM ADJ et NOM PREP NOM à l'aide de diverses méthodes (feuilles de style XSLT, scripts en pur perl et script perl utilisant le module XML::LibXml).

Création de graphes

Les graphes ont été exécutés grâce à un module du Trameur, et illustrent les diverses occurrences des patrons syntaxiques extraits, autour du motif "\bpolit", autrement dit les mots commençant par "polit".

Sources

Les differents scripts du projet, modules et documentation.

Aussi : Les solutions proposées en cours.


Documentation : sur le web

Documentation : articles du blog