BAO 3 - Résultats




Nous obtenons à la fin de ce traitement un type de fichier pour chacun des trois traitements que nous avons effectués.

Résultat 1: Cordial N0M-ADJ

RUBRIQUES SORTIE CORDIAL
Culture Culture.txt
Cinéma Cinéma.txt
International International.txt
Europe Europe.txt
Vous Vous.txt
Idée Idée.txt
Economique Economique.txt
Média Média.txt
A la une A la une.txt
Sport Sport.txt
Planète Planète.txt
Voyage Voyage.txt
Livre Livre.txt
Une1 Une1.txt
Politique Politique.txt
Technologie Technologie.txt
Société société.txt


Résultat 1: Cordial NOM-PREP-NOM

RUBRIQUES SORTIE CORDIAL
Culture Culture.txt
Cinéma Cinéma.txt
International International.txt
Europe Europe.txt
Vous Vous.txt
Idée Idée.txt
Economique Economique.txt
Média Média.txt
A la une A la une.txt
Sport Sport.txt
Planète Planète.txt
Voyage Voyage.txt
Livre Livre.txt
Une1 Une1.txt
Politique Politique.txt
Technologie Technologie.txt
Société société.txt






Résultat 2: les résultats en xml avec Treetagger.

RUBRIQUES SORTIE TREETAGGER Nom Adj SORTIE TREETAGGER Nom Prep Nom
Culture Culture.txt.xml Culture.txt.xml
Cinéma Cinéma.txt.xml Culture.txt.xml
International International.txt.xml Culture.txt.xml
Europe Europe.txt.xml Culture.txt.xml
Vous Vous.txt.xml Culture.txt.xml
Idée Idée.txt.xml Culture.txt.xml
Economique Economique.txt.xml Culture.txt.xml
Média Média.txt.xml Culture.txt.xml
A la une A la une.txt.xml Culture.txt.xml
Sport Sport.txt.xml Culture.txt.xml
Planète Planète.txt.xml Culture.txt.xml
Voyage Voyage.txt.xml Culture.txt.xml
Livre Livre.txt.xml Culture.txt.xml
Une1 Une1.txt.xml Culture.txt.xml
Politique Politique.txt.xml Culture.txt.xml
Technologie Technologie.txt.xml Culture.txt.xml
Société société.txt.xml Culture.txt.xml



Et les résultats en TXT sont dans un ensemble de fichiers:
Pour le patron Treetagger NOM-ADJ
Pour le patron Treetagger NOM-PREP-NOM

Résultat 3 Libxml

Avec libxml, nous avons toutes les rubriques dans un seul fichier. Notre tableau sera ainsi constitué de deux lignes dont une renverra vers chaque patron d'extraction.

RUBRIQUE SORTIE LIBXML Nom Adj SORTIE LIBXML Nom Prep Nom
Culture Culture.txt Culture.txt



Télécharger le dossier des résultats -> ici

Corpus
    Notre corpus est constitué de fils RSS du journal "Le Monde". Nous avons démarré notre projet avec le fichier 2008 constitué de fils RSS des journaux de 15 jours car le fichier 2014 étant lourd prenait un temps considérable pour tester les traitements.


BLOG BAO 1 et 2