BAO2 : Étiquetage des tokens de manière morphosyntaxique

Dans la dernière étape, nous avons extrait tous les titres et les descriptions dans l'arborescence des fils RSS du Monde, l'objectif est de construire un fichier structuré en XML à l'aide un script perl qui parcourt l'arborescence de fichiers et applique un traitement d’étiquetage sur chacun des fichiers rencontrés au moment du parcours.

Cette fois-ci, nous avons choisi des rubriques qui nous intéresse : ''à la une'', ''international'' et ''entreprise'' comme des cibles, et il faudra un programme qui permet de donner l'étiquette aux données textuelles extraites à l'aide de deux logiciels Treetagger et Cordial, ce programme est basé sur le script réalisé à étape 1, c'est à dire qu'il est capable d'extraire les titres et les descriptions, mais aussi capable de traiter ces données extraites, nous reviendrons sur le script plus tard.

Cliquer pour afficher le script perl