Qu'est-ce qu'on fait?
À partir des fichiers de sortie dans Bao1, On va réaliser la segmentation et l'étiquetage (POS Tagging) du texte à l'aide des outils TAL. On a deux outils pour faire ce travail.
Attention: on ne peut pas de doublons dans le résultat. Et pour générer un xml bien formé, on doit nettoyer et substituer certains éléments du texte.
Outil 1 : Cordial
Entrée: un fichier txt en encodage ISO (On va lui fournir séparément les fichiers txt de 3 rubriques générés dans Bao1);
Sortie: un fichier cnr avec le texte segmenté et étiqueté de POS et de Lemma.
Outil 2 : Treetagger (implémenté dans un script perl)
Entrée: 1. le nom de répertoire 2.indice de rubrique (ex: perl parcours-arborescence-fichiers-2018.pl 2017 3210)
Sortie: un fichier xml avec le texte segmenté et étiqueté de POS et de Lemma.
sortie Cordial: 3210.cnr 3214.cnr 3224.cnr
Sortie Treetagger: 3210.xml 3214.xml 3224.xml
Exactitude: Cordial > Treetagger
Vitesse: Cordial > Treetagger
Finesse: Cordial > Treetagger