BAO3

L'objectif de cette étape est de réaliser, à partir des fichiers de sortie préalablement obtenus, une extraction terminologique. Il s'agit d'une application du traitement automatique du langage naturel qui consiste à extraire automatiquement une liste de termes à partir d'un corpus spécialisé. L'étape consiste alors à extraire des suites de mots, correspondant à des patrons syntaxiques prédéfinis pour, ensuite, générer des graphes. L'extraction de ces patrons peut se faire de deux manières différentes:

Extraction terminologique via un script Perl

Extraction terminologique via une requête XPath

J'ai décidé d'extraire les patrons suivant:

                                 

Extraction terminologique via un script Perl

Le programme prend en entrée les sorties «brutes» de l’étiquetage, obtenues avec Cordial, issues de la Boîte à outils 2, et extrait, via un script Perl, les patrons mentionnés. Le script demande un fichier de motifs à extraire, contenant les patrons syntaxiques (pos.txt), et génère en sortie un fichier de résultats, qui affiche toutes les suites de mots correspondants aux motifs spécifiés.

Pour ce faire, j'ai saisi la ligne de commande suivante:

Script

Affichez Script_extraction_terminologique_BAO3

Téléchargez Script_extraction_terminologique_BAO3

Résultats

Résultat_extraction_ADJ_NOM_Europe

Résultat_extraction_NOM_ADJ_Europe

Résultat_extraction_NOM_PRP_NOM_Europe

Résultat_extraction_ADJ_NOM_Culture

Résultat_extraction_NOM_ADJ_Culture

Résultat_extraction_NOM_PRP_NOM_Culture

Extraction terminologique avec une feuille de styles XSLT

Il s'agit d'extraire les patrons sur les sorties au format XML de l'étiquetage effectué précédemment via Treetagger, issues de la Boîte à outils Série 2. J'ai utilisé une requête XPath dans une feuille de styles XSLT pour construire la liste des patrons visés.

Feuille de style

Pour associer le fichier XML à sa feuille de style XSLT, il faut ajouter, en-dessous de la première ligne du fichier XML, la ligne suivante :

                                      <?xml-stylesheet type="text/xsl" href="nom_feuille_de_style.xsl"?>

Résultats

Et voilà un extrait du résultat dans le navigateur:

Feuille de style ADJ NOM

Résultat_extraction_ADJ_NOM_Europe

Feuille de style NOM ADJ

Résultat_extraction_NOM_ADJ_Europe

Feuille de style NOM PRP NOM

Résultat_extraction_NOM_PRP_NOM_Europe