OBJECTIFS :

BAO3 "extraction de patrons & relations" :

Dans cette BÀO, nous allons  rechercher et extraire de patrons Morphosyntaxiques sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.) ou de relations de dépendances.

Pour cette BÀO, deux nouvelles propositions seront présentées, feuille de style XSLT pour générer notre fichier RSS, et les requêtes Xquery que nous allons lancer sur BaseX.

Cette partie et donc séparée en deux sous parties et un avant premier :

AVANT DE COMMENCER...

Question:

Les étiquettes TreeTagger et celles d'UDpipe porte de noms différents. Pour éviter de éventuelles confusion et simplifier notre traitement d'extraction, il est avantageux de unifier les deux sorties(TreeTagger et UDpipe) 

Perl Script(TreeTagger xml)

Ligne de commande pour lancer le programme:
(On se situe dans le répertoire BAO)
perl Bao3_patron_ttg.pl ./BAO3/BAO3_Pl_Tree_tagger3210.xml "NOUN ADP NOUN ADP" 3210

Le script prend comme arguments :
- le nom du fichier d'entrée
-  le patrons
- le numéro de la rubrique

Attention ici quand on écrit l'expression régulière pour représenter la ligne d'élément, il faut savoir que seuls les segments entre les parenthèses seront compter en bas comme variable. Évitons de mettre des parenthèses partout et mettons juste sur les variables dont on a besoin.

Python Script (TreeTagger xml)

Ligne de commande pour lancer le programme:
python3 BAO3_Patron_Buffer.py 3210 ./BAO3/BAO3_Py_Tree_tagger3210.xml NOUN ADP NOUN ADP
(On se situe dans le répertoire BA0)

Deux choses importantes à faire attention dans ce scipt:
- quand on utilise les expression régulières pour identifier les lignes contenants des patrons, il faut éviter les lignes "vide". Souvent quand un token est en effet deux mots rassemblés  ils sont précis au dessous, donc il faut les éviter.
- en terme de la commande pour lancer le script il faut faire attentions de bien mettre de " " pour englober le patron en entier dans l'argument.


Les scripts et les résultats:(3210)
Langage Script
PERL(TreeTagger) SCRIPT
PERL(conll) SCRIPT
PYTHON(TreeTagger) SCRIPT
PYTHON(Conll) SCRIPT
XSLT(feuille de style)
FICHIER
Xquery(requête) REQUÊTE
PATRON Sorties
NOM PREP NOM PREP

ADJ NOM

NOM ADJ

VERB PREP VERB

NOM PREP VERB
VERB DET NOM