La deuxiéme étape de notre projet consiste à réaliser
l'étiquetage
Pour ce faire nous avons suivi 2 parcours distincts : le premier via
TREETAGGER (TTG) et le deuxième via CORDIAL (décrits dans la section outils). En sortie nous
avons obtenus toujours deux types de fichiers, soit TXT et XML, dans
lesquels à chaque mot ont été associés sa catégorie
De maniére générale, les deux outils ont impliqué des démarches tout à fait différentes : TreeTagger utilise des sous-programmes Perl et dès lors nous, à notre tour, nous avons appelé TTG via un programme principal en Perl ; tandis que Cordial dispose d'une interface graphique et le traitement des données a été fait à la main.
Un traitement supplémentaire des résultats en format XML a consisté à recomposer le contenu des titres et des résumés par rubrique en utilisant une feuille de transformation XSL et des requête XPath, en y incorporant également les annotations de TreeTagger et Cordial.
Pour plus de détails sur chacun des parcours, accédez le menu à gauche.