1) Etape intermédiaire:
L'extraction des patrons syntaxiques se fait à partir des fichiers XML taggés par Treetagger dans la BàO 2. Afin que ces fichiers soient traitables, il a fallu faire une modification de sorte à avoir les balises <ELEMENT> et <DATA> sur la même ligne, ceci en supprimant les retours charriot.
Pour télécharger le script de correction, cliquer ici
Pour télécharger les sorties après la correction, cliquez ici
2) Exécution du script:
Ce script utilise la bibliothèque XML::XPath. Il prend en entrée les fichiers XML produits par Treetagger et un fichier patron pour produire en sortie des fichiers comportant les syntagmes extraits des différentes rubriques. Ce script nécessite d'entrer les fichier XML un par un et relancer le programme. Il a fallu faire attention à changer le nom du fichier résultat pour ne pas perdre les résultats précédents.
Voici le script en entier commenté :
Voici un exemple de résultat (rubrique: politique) avec le patron NOM-ADJ :
Pour télécharger le script, cliquez ici
Pour télécharger les résultats obtenus, cliquer ici
Pour chaque patron choisis, nous avons réalisé une feuille de style qui avec les fichiers XML taggés produiront le résultat demandé sous format html.
Voici la feuille de style pour avoir le patron NOM ADJ :
Pour visualiser un exemple de résultat (rubrique: A la Une), cliquez ici
Pour télécharger la feuille de style, cliquez ici
Pour télécharger les résultats obtenus, cliquez ici
Voici la feuille de style pour avoir le patron NOM PREP NOM :
Pour visualiser un exemple de résultat (rubrique: A la Une), cliquez ici
Pour télécharger la feuille de style, cliquez ici
Pour télécharger les résultats obtenus, cliquez ici