Boite à Outil 2

Étiquetage


Après avoir réalisé l'extraction des balises titres et descriptions à l'aide l'algorithme de la Boîte à Outils 1, des rubriques Culture, Europe et Société nous arrivons donc à la Boîte à Outils 2. La deuxième boîte à outils permet d'étiquetter les fichiers produits par la BAO1.

La deuxième boîte à outils procède de la même manière que le premier sauf qu'il permet de faire de l'étiquetage morphosyntaxique avec TreeTagger sur les fichiers XML obtenus avec la BAO1. Pour cela, elle se sert d'un tokeniser en Perl (tokenise-utf8.pl) et d'un programme structurant en XML les rendus de l'étiquetage par TreeTagger (treetagger2xml-utf8.exe). En sortie, le script rend un fichier XML avec le contenu textuel entièrement étiqueté en tokens, lemmes et parties du discours.

  • Voici les fichiers obtenus pour la rubrique livre (3260) par le biais du script : Fichier XML étiqueté Fichier talismane
  • Voici les fichiers obtenus pour la rubrique cinéma (3476) par le biais du script : Fichier XML étiqueté Fichier talismane
  • Voici les fichiers obtenus pour la rubrique rendez-vous (3238) par le biais du script : Fichier XML étiqueté Fichier talismane

    Pour lancer le script :
    BAO2.pl nom_du_répertoire nom_de_la_rubrique

    Télécharger le script :


    Visualiser le script :

    Get in touch

    Contact