BAO 3

Nous avons obtenue dans la boîte à outil 2 des fichiers bruts que nous avons étiquettés à l'aide du logiciel cordial. Il est donc question ici de faire une extraction de patrons syntaxiques à l'aide de ces résultats. Nous avons utilisés trois méthodes pour pouvoir faire cette extraction:

Un script permettant d'extraire les patrons que nous souhaitons (NOM-ADJ/NOM-PREP-NOM) du fichier txt.
Un script permettant d'extraire les patrons que nous souhaitons du fichier xml, nous utilisons ici treetagger2xml.
Un script permettant d'extraire les patrons souhaités du fichier xml. nous utilisons ici libxml, en donnant en entrée le fichier xml obtenu dans BAO2 et nous avons en sortie les fichiers txt et xml.

Corpus

Notre corpus est constitué de fils RSS du journal "Le Monde". Nous avons démarré notre projet avec le fichier 2008 constitué de fils RSS des journaux de 15 jours car le fichier 2014 étant lourd prenait un temps considérable pour tester les traitements.