L'objectif de cette phase

Cette boîte concerne d'extraire différents patrons syntaxiques en utilisant les fichiers résultats de BAO2. Les sorties sont des listes d'extraction en texte brut. L'idée de cette boîte est de traiter de différents corpus avec de différents outils, selon les formes d'entrées. Les outils utilisé dans cette boîte sont :

  • un script Perl (extraire les partons syntaxiques sur le résultat TXT de Talismane) ;
  • un script Python (extraire les partons syntaxiques sur le résultat TXT de Talismane) ;
  • les feuilles de styles XSLT (extraire les patrons syntaxiques sur le résultat XML de Tree Tagger) ;
  • les requêtes XQuery (extraire les patrons syntaxiques sur le résultats XML de Tree Tagger)

Les patrons syntaxiques à extraire sont :

  1. NOM PREP NOM PREP NOM ;
  2. VERBE DET NOM ;
  3. NOM ADJ ;
  4. ADJ NOM.


Perl Pure (sur les résultats TXT de Talismane)

Le script écrit en cours : BAO3_patron_TalismaneTXT.pl
Les scripts de professeurs : extract-terminologie-talismane1 ; extract-terminologie-talismane2.

Les résultats de cette partie sont les extractions classées et claculées par patron de chaque rubrique. La sortie est stocker dans le fichier TXT.
La commande exécutée dans cette partie est :
perl programme.pl Talismane_résultat.txt (patron.txt) | sort | uniq -c | sort -grf > sortie.txt

Sur toutes les 3 rubriques

Les extractions de NC P NC P NC :
NC P NC P NC 3208 TXT NC P NC P NC 3210 TXT NC P NC P NC 3260 TXT

Les extractions de V DET NC :
V DET NC 3208 TXT V DET NC 3210 TXT V DET NC 3260 TXT

Les extractions de NC ADJ:
NC ADJ 3208 TXT NC ADJ 3210 TXT NC ADJ 3260 TXT

Les extractions de ADJ NC :
ADJ NC 3208 TXT ADJ NC 3210 TXT ADJ NC 3260 TXT


Python (sur les résultats TXT de Talismane)

Le script Python : Python Spacy
J'ai utilisé le module Spacy en Python pour étiqueter les données textuelles, et puis extraire les expressions correspondantes aux patrons morphosyntaxiques. Et le programme est d'extraire tous les patrons ensemble, pourtant, nous pouvons aussi extraire les patrons séparément. La sortie est stocker dans le fichier TXT.
La segmentation de mot en Spacy est pas mal, contrairement, son étiquetage n'est pas tellement bien par rapport aux Talismane et TreeTagger. Par exemple, pour le patron "NOM PREP NOM PREP NOM", il a produit des extraction comme "professeur de littérature à l’" où le déterminant est considéré comme le nom ; et pour le patron "VERBE DET NOM", il a fait des fautes comme "l’ un l’".

Sur toutes les 3 rubriques

Les extractions sur 3208 : Python-Spacy 3208 TXT

Les extractions sur 3210 : Python-Spacy 3210 TXT

Les extractions sur 3260 : Python-Spacy 3260 TXT


XSLT (sur les résultats XML de TreeTagger)

Cette partie est de construire une feuille de styles XSLT pour extraire des patrons morphosyntaxiques dans les étiquetages produits avec treetagge. La sortie de ce traitement est un html afficher simplement.

Sur la seule rubrique UNE (3208)

Les extractions pour NOM PRP NOM PRP NOM) :
NOM PRP NOM PRP NOM xsl NOM PRP NOM PRP NOM xml 3208

Les extractions pour VER DET NOM) :
VER DET NOM xsl VER DET NOM xml 3208

Les extractions pour NOM ADJ) :
NOM ADJ xsl NOM ADJ xml 3208

Les extractions pour ADJ NOM) :
ADJ NOM xsl ADJ NOM xml 3208


XQuery - BaseX (sur les résultats XML de TreeTagger)

Un exemple d'extraire le patron NOM PRP NOM PRP NOM en base du résultat TreeTagger de rubrique 3210 (INTERNATIONAL) :

for $article in collection("BAO2_treeTagger3210")//article
for $mot in $article/element
let $motSuivant:=$mot/following-sibling::element[1]
let $motSuivant1:=$mot/following-sibling::element[2]
let $motSuivant2:=$mot/following-sibling::element[3]
let $motSuivant3:=$mot/following-sibling::element[4]

where $mot[contains(data[1],"NOM")] and $motSuivant[contains(data[1],"PRP")] and $motSuivant1[contains(data[1],"NOM")] and $motSuivant2[contains(data[1],"PRP")] and  $motSuivant3[contains(data[1],"NOM")]

return concat($mot/data[3]/text()," ",$motSuivant/data[3]/text()," ",$motSuivant1/data[3]/text()," ",$motSuivant2/data[3]/text()," ",$motSuivant3/data[3]/text())

Sur toutes les 3 rubriques

Les extractions de NOM PRP NOM PRP NOM :
NOM PRP NOM PRP NOM 3208 TXT NOM PRP NOM PRP NOM 3210 TXT NOM PRP NOM PRP NOM 3260 TXT

Les extractions de VER DET NOM :
VER DET NOM 3208 TXT VER DET NOM 3210 TXT VER DET NOM 3260 TXT

Les extractions de NOM ADJ :
NOM ADJ 3208 TXT NOM ADJ 3210 TXT NOM ADJ 3260 TXT

Les extractions de ADJ NOM :
ADJ NOM 3208 TXT ADJ NOM 3210 TXT ADJ NOM 3260 TXT