BAO 2 - Résultats



Nous retrouvons donc dans notre dossier RESULTAT les dossiers "SORTIE" qui contient les titres et descriptions de chaque rubrique et "TREETAGGER" qui contient chaque rubrique étiquetée.

Nous vous présentons chaque fichier de sortie dans les tableaux qui suivent:


Résultats - chaque rubrique en txt et xml (en Utf-8):

RUBRIQUES TXT XML
Culture Culture.txt Culture.xml
Cinéma Cinéma.txt Cinéma.xml
International International.txt international.xml
Europe Europe.txt Europe.xml
Vous Vous.txt Vous.xml
Idée Idée.txt Idée.xml
Economique Economique.txt Economique.xml
Média Média.txt Média.xml
A la une A la une.txt A la une.xml
Sport Sport.txt Sport.xml
Planète Planète.txt Planète.xml
Voyage Voyage.txt Voyage.xml
Livre Livre.txt Livre.xml
Une1 Une1.txt Une1.xml
Politique Politique.txt Politique.xml
Technologie Technologie.txt Technologie.xml
Société société.txt société.xml

Vous pouvez télécharger l'ensemble par -> ici

Résultats - étiquetage avec treetagger:


RUBRIQUES TXT XML
Culture Culture.txt Culture.txt.xml
Cinéma Cinéma.txt Cinéma.txt.xml
International International.txt international.txt.xml
Europe Europe.txt Europe.txt.xml
Vous Vous.txt Vous.txt.xml
Idée Idée.txt Idée.txt.xml
Economique Economique.txt Economique.txt.xml
Média Média.txt Média.txt.xml
A la une A la une.txt A la une.txt.xml
Sport Sport.txt Sport.txt.xml
Planète Planète.txt Planète.txt.xml
Voyage Voyage.txt Voyage.txt.xml
Livre Livre.txt Livre.txt.xml
Une1 Une1.txt Une1.txt.xml
Politique Politique.txt Politique.txt.xml
Technologie Technologie.txt Technologie.txt.xml
Société société.txt société.txt.xml

Vous pouvez télécharger l'ensemble par -> ici

Résultats - étiquetage avec le logiciel "cordial":


RUBRIQUES SORTIE CORDIAL
Culture Culture.cnr
Cinéma Cinéma.cnr
International International.cnr
Europe Europe.cnr
Vous Vous.cnr
Idée Idée.cnr
Economique Economique.cnr
Média Média.cnr
A la une A la une.cnr
Sport Sport.cnr
Planète Planète.cnr
Voyage Voyage.cnr
Livre Livre.cnr
Une1 Une1.cnr
Politique Politique.cnr
Technologie Technologie.cnr
Société société.cnr

Notons que les fichiers de sortie dans le tableau 1 sont à transformer en Iso-8859-1

Vous pouvez télécharger l'ensemble par -> ici

L'allure des fichiers de sortie est comme suit:

EXTRAIT DE LA SORTIE TREETAGGER - CULTURE.TXT

<?xml version="1.0" encoding="iso-8859-1" ?>
<titre>
<titre>
Mort    NOM    mort
de    PRP    de
Frankie    NAM    Frankie
Knuckles    NAM    Knuckles
,    PUN    ,
sorcier    NOM    sorcier
de    PRP    de
la    DET:ART    le
house    NOM    house
de    PRP    de
Chicago    NAM    Chicago
</titre>
<description>
Le    DET:ART    le
DJ    NAM    DJ
,    PUN    ,
de    PRP    de
son    DET:POS    son
vrai    ADJ    vrai
nom    NOM    nom
Francis    NAM    Francis
Nicholls    NAM    Nicholls
,    PUN    ,
est    VER:pres    être
mort    NOM    mort
à    PRP    à
l'âge    NOM    l'âge
de    PRP    de
59    NUM    @card@
ans    NOM    an
.    SENT    .
A    PRP    à
la    DET:ART    le
fin    NOM    fin
des    PRP:det    du
années    NOM    année
1970    NUM    @card@
,    PUN    ,
il    PRO:PER    il
a    VER:pres    avoir
révolutionné    VER:pper    révolutionner
la    DET:ART    le
musique    NOM    musique
électro    ADJ    électro
.    SENT    .

EXTRAIT DE LA SORTIE TREETAGGER - CULTURE.XML

<titre>
<element><data type="type">NOM</data><data type="lemma">mort</data><data type="string">Mort</data></element>
<element><data type="type">PRP</data><data type="lemma">de</data><data type="string">de</data></element>
<element><data type="type">NAM</data><data type="lemma">Frankie</data><data type="string">Frankie</data></element>
<element><data type="type">NAM</data><data type="lemma">Knuckles</data><data type="string">Knuckles</data></element>
<element><data type="type">PUN</data><data type="lemma">,</data><data type="string">,</data></element>
<element><data type="type">NOM</data><data type="lemma">sorcier</data><data type="string">sorcier</data></element>
<element><data type="type">PRP</data><data type="lemma">de</data><data type="string">de</data></element>
<element><data type="type">DET:ART</data><data type="lemma">le</data><data type="string">la</data></element>
<element><data type="type">NOM</data><data type="lemma">house</data><data type="string">house</data></element>
<element><data type="type">PRP</data><data type="lemma">de</data><data type="string">de</data></element>
<element><data type="type">NAM</data><data type="lemma">Chicago</data><data type="string">Chicago</data></element>
</titre>
<description>
<element><data type="type">DET:ART</data><data type="lemma">le</data><data type="string">Le</data></element>
<element><data type="type">NAM</data><data type="lemma">DJ</data><data type="string">DJ</data></element>
<element><data type="type">PUN</data><data type="lemma">,</data><data type="string">,</data></element>
<element><data type="type">PRP</data><data type="lemma">de</data><data type="string">de</data></element>
<element><data type="type">DET:POS</data><data type="lemma">son</data><data type="string">son</data></element>
<element><data type="type">ADJ</data><data type="lemma">vrai</data><data type="string">vrai</data></element>
<element><data type="type">NOM</data><data type="lemma">nom</data><data type="string">nom</data></element>
<element><data type="type">NAM</data><data type="lemma">Francis</data><data type="string">Francis</data></element>
<element><data type="type">NAM</data><data type="lemma">Nicholls</data><data type="string">Nicholls</data></element>
<element><data type="type">PUN</data><data type="lemma">,</data><data type="string">,</data></element>
<element><data type="type">VER:pres</data><data type="lemma">être</data><data type="string">est</data></element>
<element><data type="type">NOM</data><data type="lemma">mort</data><data type="string">mort</data></element>
<element><data type="type">PRP</data><data type="lemma">à</data><data type="string">à</data></element>
<element><data type="type">NOM</data><data type="lemma">l'âge</data><data type="string">l'âge</data></element>
<element><data type="type">PRP</data><data type="lemma">de</data><data type="string">de</data></element>
<element><data type="type">NUM</data><data type="lemma">@card@</data><data type="string">59</data></element>
<element><data type="type">NOM</data><data type="lemma">an</data><data type="string">ans</data></element>
<element><data type="type">SENT</data><data type="lemma">.</data><data type="string">.</data></element>
<element><data type="type">PRP</data><data type="lemma">à</data><data type="string">A</data></element>
<element><data type="type">DET:ART</data><data type="lemma">le</data><data type="string">la</data></element>
<element><data type="type">NOM</data><data type="lemma">fin</data><data type="string">fin</data></element>
<element><data type="type">PRP:det</data><data type="lemma">du</data><data type="string">des</data></element>
<element><data type="type">NOM</data><data type="lemma">année</data><data type="string">années</data></element>
<element><data type="type">NUM</data><data type="lemma">@card@</data><data type="string">1970</data></element>
<element><data type="type">PUN</data><data type="lemma">,</data><data type="string">,</data></element>
<element><data type="type">PRO:PER</data><data type="lemma">il</data><data type="string">il</data></element>
<element><data type="type">VER:pres</data><data type="lemma">avoir</data><data type="string">a</data></element>
<element><data type="type">VER:pper</data><data type="lemma">révolutionner</data><data type="string">révolutionné</data></element>
<element><data type="type">DET:ART</data><data type="lemma">le</data><data type="string">la</data></element>
<element><data type="type">NOM</data><data type="lemma">musique</data><data type="string">musique</data></element>
<element><data type="type">ADJ</data><data type="lemma">électro</data><data type="string">électro</data></element>
<element><data type="type">SENT</data><data type="lemma">.</data><data type="string">.</data></element>
</description>


EXTRAIT DE LA SORTIE CORDIAL - CULTURE.CNR

Titre    titre    NCMS
:    :    PCTFORTE
:
Mort    mort    NCFS
de    de    PREP
Frankie    Frankie    NPMS
Knuckles    Knuckles    NPI
,    ,    PCTFAIB
sorcier    sorcier    ADJMS
de    de    PREP
la    le    DETDFS
house    house    NCHFS
de    de    PREP
Chicago    Chicago    NPSIG
\r
Description    description    NCFS
:    :    PCTFORTE
:
Le    le    DETDMS
DJ    dj    NCI
,    ,    PCTFAIB
de    de    PREP
son    son    DETPOSS
vrai    vrai    ADJMS
nom    nom    NCMS
Francis    Francis    NPMIN
Nicholls    Nicholls    NPI
,    ,    PCTFAIB
est    être    VINDP3S
mort    mourir    VPARPMS
à    à    PREP
l'    le    DETDMS
âge    âge    NCMS
de    de    PREP
59    59    ADJNUM
ans    an    NCMP
.    .    PCTFORTE
A    avoir    VINDP3S
la    le    DETDFS
fin    fin    NCFS
des    de    DETDPIG
années    année    NCFP
1970    1970    NCMIN
,    ,    PCTFAIB
il    il    PPER3S
a    avoir    VINDP3S
révolutionné    révolutionner    VPARPMS
la    le    DETDFS
musique    musique    NCFS
électro    électro    NCI
.    .    PCTFORTE
\r


Corpus
    Notre corpus est constitué de fils RSS du journal "Le Monde". Nous avons démarré notre projet avec le fichier 2008 constitué de fils RSS des journaux de 15 jours car le fichier 2014 étant lourd prenait un temps considérable pour tester les traitements.


BLOG BAO 1 et 2