La deuxiéme étape de notre projet consiste à réaliser l'étiquetage morpho-syntaxique des mots composant le contenu textuel des titres et des résumés extraits lors de la première étape.

 

Pour ce faire nous avons suivi 2 parcours distincts : le premier via TREETAGGER (TTG) et le deuxième via CORDIAL (décrits dans la section outils). En sortie nous avons obtenus toujours deux types de fichiers, soit TXT et XML, dans lesquels à chaque mot ont été associés sa catégorie morpho-syntaxique et son lemme. Une opération préalable de découpage en mots du contenu a été nécessaire.

 

De maniére générale, les deux outils ont impliqué des démarches tout à fait différentes : TreeTagger utilise des sous-programmes Perl et dès lors nous, à notre tour, nous avons appelé TTG via un programme principal en Perl ; tandis que Cordial dispose d'une interface graphique et le traitement des données a été fait à la main.

 

Un traitement supplémentaire des résultats en format XML a consisté à recomposer le contenu des titres et des résumés par rubrique en utilisant une feuille de transformation XSL et des requête XPath, en y incorporant également les annotations de TreeTagger et Cordial.

 

Pour plus de détails sur chacun des parcours, accédez le menu à gauche.