Etiquetage morpho-syntaxique avec TreeTagger

 

Pour continuer le traitement sur le corpus textuel LE MONDE, nous avons utilisé le programme de filtrage créé à l'étape précédante. Ainsi, nous avons décidé de laisser de côté les scripts utilisant les modules XML::LibXML et XML::XPath, et de reprendre ceux qui utilisent des expressions régulières et le module XML::RSS.

 

Le contenu textuel dont on dispose doit être d'abord tokenisé (découpé en mots) et lemmatisé. A cette fin, TreeTagger utilise des programmes Perl et d'autres programmes spécifiques pour quelques langues. Dans notre script, nous avons inséré deux commandes 'system' pour appeler ces programmes Perl externes, qui avaient le rôle de tokeniser, lemmatiser et générer à la fois un fichier TXT et un fichier XML contenant les résultats de ce traitement.

 

structure balisée des fichiers RSS

 

 

Au bout de plus de 12 heures de traitement.....

 

 

...voici les résultats :

 

 

Les scripts à télécharger: RSS et expressions régulières.

 

Une fois le traitement d'étiquetage terminé, une nouvelle tâche nous attend : construire un fichier structuré englobant le contenu textuel initial de chaque rubrique annoté par Treetagger. A cette fin nous avons repris une feuille de transformation qui nous a été mise à disposition. Nous l'avons améliorée en ajoutant une requête XPath de concanténation des balises identifiant les étiquettes TTG :

 

 

Voici le nouveau affichage des fichiers XML grâce à la feuille de transformation appliquée :

 

 

Cliquez ici pour visualiser la feuille de style.

 

 

Egalement à l'aide d'une feuille de style et de requêtes XPath, un autre traitement est possible sur le fichiers XML étiquetés : extraction de patrons.


 

 

Voici le code Xpath :

 

 

Cliquez ici pour visualiser la feuille de style intégrale.