Objectif

La BàO1 a produit 2 sorties : 1 fichier TXT et 1 fichier XML.
Le fichier XML sera enrichi par un étiquetage via TreeTagger On produira en outre un autre étiquetage via Talismane

Pour ce faire, nous avons besoin de ressource informatique, c'est-à-dire treetagger et Talismane.

Acknowledgments

TreeTagger

The TreeTagger is a tool for annotating text with part-of-speech and lemma information. It was developed by Helmut Schmid in the TC project at the Institute for Computational Linguistics of the University of Stuttgart. The TreeTagger has been successfully used to tag German, English, French, Italian, Danish, Dutch, Spanish, Bulgarian, Russian, Portuguese, Galician, Greek, Chinese, Swahili, Slovak, Slovenian, Latin, Estonian, Polish, Romanian, Czech, Coptic and old French texts and is adaptable to other languages if a lexicon and a manually tagged training corpus are available.
Voir le site:http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

Talismane

Talismane is a natural language processing framework with sentence detector, tokeniser, pos-tagger and dependency syntax parser. Current available language packs include French (standard and Universal Dependencies) and English.
Voir le site: https://github.com/joliciel-informatique/talismane

Sortie résultat

Script Perl
Script Python qui fait étiquetage Treetagger
Sortie txt Talisman via BAO2 de Perl( & et "& a m p ) de la rubrique LIVRE.
Sortie fichier XML Treetagger via BAO2 avec Perl (& et "& a m p ;) de la rubrique LIVRE.
Sortie txt Talisman (& et "& a m p ;") de la rubrique CULTURE
Sortie XML Treetagger de la rubrique CULTURE