Extraire des patrons syntaxiques et une relation (obj) sur les fichiers étiquettés par TreeTagger et UDPIPE.
Les 6 feuilles de styles (.xsl) sont sensiblement identiques. Seul le nom de ce que l'on cherche et le nombre de frère à trouver diffèrent.
Je vais prendre comme exemple la feuille de style ADJ-NOM
pour télécharger cette feuille de style:
J'utilise xsltproc sur mon terminal pour transformer les fichiers xml en fichier .txt.
Je fais cette commande poru chaque feuille de style et pour chaque rubrique.
J'utilise les fichiers étiquettés par TreeTagger de la BaO2.
Pour chaque balise element, on va chercher dans la 1er balise data (qui correspond à la POS) la valeur 'ADJ'. On enregistre dans la variable $p1 la forme (3e balise data). Dès qu'on la trouve, on vérifie si dans la balise frère suivante <élément> on trouve dans la 1er balise data la valeur 'NOM'. Si c'est le cas, on enregistre la forme (3e balise data) dans la variable $p2. Enfin, on peut afficher les deux variables dans le fichier .txt.
J'utilise le même procédé pour les autres patrons en remplaçant la valeur à trouver, et le nombre de frère à matcher en fonction de la longueur du patron syntaxique.
Les 6 feuilles de styles (.xsl) sont sensiblement identiques. Seul le nom de ce que l'on cherche et le nombre de frère à trouver diffèrent.
Je vais prendre comme exemple la feuille de style ADJ-NOM
pour télécharger cette feuille de style:
J'utilise xsltproc sur mon terminal pour transformer les fichiers xml en fichier .txt.
Je fais cette commande poru chaque feuille de style et pour chaque rubrique.
J'utilise les fichiers étiquettés par Udpipe au format .xml de la BaO2.
Pour chaque balise item, on va chercher dans la 4er balise a (qui correspond à la POS) la valeur 'ADJ'. On enregistre dans la variable $p1 la forme (2e balise a). Dès qu'on la trouve, on vérifie si dans la balise frère suivante <élément> on trouve dans la 4e balise <a> la valeur 'NOUN'. Si c'est le cas, on enregistre la forme (2e balise) dans la variable $p2. Enfin, on peut afficher les deux variables dans le fichier .txt.
J'utilise le même procédé pour les autres patrons en remplaçant la valeur à trouver, et le nombre de frère à matcher en fonction de la longueur du patron syntaxique.
J'utilise la même feuille de style pour les trois rubriques. La commande pour la transformation est identique aux deux précédentes : j'utilise xsltproc.
pour télécharger cette feuille de style:
On va déclarer un paramètre au début du fichier xsl pour chercher notre relation
Puis, pour chaque balise item, on va chercher dans la 8e balise a (qui correspond à la relation) la valeur de notre paramète ($Relation='obj'). Si c'est le cas, on va enregistrer la position de la forme dans la variable $PositionSource, la forme dans la variable $p1, et la position de la tête dans la variable $PositionCible.
On va ensuite se servir de la position de la cible ($PositionCible) afin de trouver la forme. Si la cible est avant la source, on va regarder dans les preceding-siblings, et inversement si la cible est après la source, on va regarder dans les following-siblings. Une fois que nous sommes dans la bonne configuration, on peut écrire le résultat dans le fichier .txt.
Patron | Feuille de style pour fichier TreeTagger | Résultat | Feuille de style pour fichier Udpipe | Résultat |
---|---|---|---|---|
NOM-ADJ | feuille de style | resultat.txt | feuille de style | resultat.txt |
ADJ-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
NOM-PREP-NOM-PREP | feuille de style | resultat.txt | feuille de style | resultat.txt |
VERB-DET-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
NOM-PREP-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
PREP-DET-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
Feuille de style pour extraction de l'objet | Résultat |
---|---|
feuille de style | resultat |
Patron | Feuille de style pour fichier TreeTagger | Résultat | Feuille de style pour fichier Udpipe | Résultat |
---|---|---|---|---|
NOM-ADJ | feuille de style | resultat.txt | feuille de style | resultat.txt |
ADJ-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
NOM-PREP-NOM-PREP | feuille de style | resultat.txt | feuille de style | resultat.txt |
VERB-DET-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
NOM-PREP-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
PREP-DET-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
Feuille de style pour extraction de l'objet | Résultat |
---|---|
feuille de style | resultat |
Patron | Feuille de style pour fichier TreeTagger | Résultat | Feuille de style pour fichier Udpipe | Résultat |
---|---|---|---|---|
NOM-ADJ | feuille de style | resultat.txt | feuille de style | resultat.txt |
ADJ-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
NOM-PREP-NOM-PREP | feuille de style | resultat.txt | feuille de style | resultat.txt |
VERB-DET-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
NOM-PREP-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
PREP-DET-NOM | feuille de style | resultat.txt | feuille de style | resultat.txt |
Feuille de style pour extraction de l'objet | Résultat |
---|---|
feuille de style | resultat |