Qu'est-ce qu'on fait?

  • À partir des fichiers de sortie dans Bao1, On va réaliser la segmentation et l'étiquetage (POS Tagging) du texte à l'aide des outils TAL. On a deux outils pour faire ce travail.
  • Attention: on ne peut pas de doublons dans le résultat. Et pour générer un xml bien formé, on doit nettoyer et substituer certains éléments du texte.

  • Outil 1 : Cordial

  • Entrée: un fichier txt en encodage ISO (On va lui fournir séparément les fichiers txt de 3 rubriques générés dans Bao1);
  • Sortie: un fichier cnr avec le texte segmenté et étiqueté de POS et de Lemma.
  • Outil 2 : Treetagger (implémenté dans un script perl)

  • Entrée: 1. le nom de répertoire 2.indice de rubrique (ex: perl parcours-arborescence-fichiers-2018.pl 2017 3210)
  • Sortie: un fichier xml avec le texte segmenté et étiqueté de POS et de Lemma.


  • sortie Cordial: 3210.cnr 3214.cnr 3224.cnr

    Sortie Treetagger: 3210.xml 3214.xml 3224.xml

  • Exactitude: Cordial > Treetagger
  • Vitesse: Cordial > Treetagger
  • Finesse: Cordial > Treetagger