Boite à Outils 3

Extraction de patrons

Solution Pure Perl

Premièrement, pour extraire des patrons morphosyntaxiques dans les étiquetages par Cordial, j'ai essayé la solution 1, la solution du pure Perl.


Pour utiliser ce script, il me faut créer des patrons moi-même et le tester avec le script.
J'ai essayé ces 3 patrons : Nom Adj, Nom Prep Nom, Prep Det Nom.
     NC... ADJ...
     NC... PREP NC...
     PREP DET... NC...


Solution XSLT

XSLT est une autre solution pour extraire des patrons dans les fichiers d'étiquetage avec Treetagger. J'ai fait une feuille de style pour extraire 3 patrons, "NOM ADJ", "NOM PRP NOM", "PRP DET:def NOM ADJ" (scroll!)

La page HTML :

Solution xslt

D'autre solution Perl

J'ai aussi pu détecter des patrons avec deux autres scripts en Perl, un pour les étiquetages du Treetagger, un pour ceux du Cordial.
Pour le travail sur les sorties Treetagger, j'ai adopté 4 patrons.

Exemple NOM ADJ:

Exemple NOM PREP NOM:

Exemple NOM KON NOM:

Exemple PREP DET NOM:

Ensuite, pour trouver des descendants des patrons dans les étiquetages du Cordial, et les compter en plus si possible, j'ai appliqué 5 patron.

Exemple NOM ADJ:

Exemple NOM PREP NOM:

Exemple NOM ADJ:

Exemple PREP ADJ NOM:

Exemple ADJ NOM ADJ (visant les expressions négatifs):

J'ai trouvé surtout intéressant ce patron, parce que même s'il y a parfois des expressions pas négatives, c'est un petit nombre, et la plupart est des expressions négatives.