La boîte à outils 3, le retour de la fin

D'après les sorties étiquetées par TreeTagger

De la même façon que pour la boîte à outils 2, la boîte à outils 3 s'appuie sur les résultats produits précédemment. En l'occurrence, il s'agit de réinvestir les résultats étiquetés pour en extraire des patrons, c'est-à-dire des motifs syntaxiques tels que "NOM PREP NOM". Le programme est téléchargeable ici. Rendons à César ce qui appartient à César, il s'agit du programme de RB.

Le programme fonctionne grâce aux requêtes XPath, afin de remonter les noeuds du fichier XML étiqueté produit en BaO3, pour extraire les patrons que nous aurons choisis.
La commande de lancement est la suivante :

Le programme prend donc en appel deux arguments : le nom du fichier où l'on aura entré les motifs choisis, et le fichier XML étiqueté ($O correspond au nom du programme). On donne donc à manger au programme le fichier XML étiqueté issu du traitement précédent, ainsi qu'un fichier texte de ce type :

Chaque liste de motifs est ensuite stockée dans un fichier individuel du type res_extract-NOM_ADJ.txt.

Pour voir des extraits des résultats d'extraction :

Les extractions du motif VER-PRP :

Les extractions du motif PRP-VER :

D'après les sorties étiquetées par Cordial

Cette fois, nous avons eu recours au script de SF, que nous avons modifié afin qu'il utilise les patrons que nous avons choisis.
Contrairement à l'extraction des motifs taggés par TreeTagger, on ne peut se contenter de fournir un fichier texte dans lequel on aurait inscrit les motifs, puisque la sortie produite par Cordial est une sortie texte brut et n'a pas d'architecture dans laquelle nous pourrions demander à un module d'aller fouiner. Par conséquent, nous devons revenir aux sources, à la base de nos connaissances, et faire usage une fois de plus des expressions régulières. Voici l'expression qui permet l'extraction des motifs nom-adjectif :

Et celle qui permet l'extraction des motifs nom-préposition-nom :

Pour voir des extraits des résultats d'extraction :

Les extractions du motif DET-NOM :

Les extractions du motif NOM-ADJ :