Objectif

La troisième boîte à outils vise à extraire des patrons morphosyntaxiques dans le fichier talisman ou le fichier treetagger xml, à l'aide de différents langage. Nous avons notamment lancé en cours une sorte de compétition entre Perl, Python, XSLT et XQuery pour voir qui était le plus performant sur cette tâche. Pour notre part, nous avons juste comparé Perl et Python.

1, perl: rapide, pas facile à écrire;

2, Python: facile à écrire, une douzaine de lignes de codes, mais il faut faire un nettoyage avant de lancer le script (c'est-à-dire, l'ancien fichier de 2018 ne marche pas, il faut prendre celui de 2019 que l'on a généré avec le script perl du cours);

Archives

1/Les scripts:

Perl

Python

2/Les sorties:

patrons de la rubrique 3246

patrons de la rubrique 3260