Extraire des patrons syntaxiques et une relation (obj) sur les fichiers étiquettés par TreeTagger et UDPIPE
Une seule requête va permettre de récupérer tous les patrons syntaxiques avec xquery. La seule chose à modifier est le nom de la base de donnée au début de la requête pour avoir les patrons de chaque rubrique.
pour télécharger la requete pour la base de donnée europe.udipipe.xml
On déclare une variable pour compter le nombre d'occurrence de chaque forme trouvée.
On va chercher pour chaque élément dans chaque item les patrons qui nous interessent. En premier lieu on cherche les NOM-ADJ, puis les ADJ-NOM, puis VERB-DET-NOM, PRP-DET-NOm, NOM-PRP-NOM et enfin NOM-PRP-NOM-PRP. On se sert des balises <a>. La deuxième correspond à la forme, et la quatrième à la POS.
Exemple : pour trouver NOM-ADJ, on va chercher la POS 'NOM' et une fois trouvée, on va regarder si le frère suivant de la balise <item> a la valeur 'ADJ' pour POS. Si c'est le cas, on récupère les valeurs des formes NOM et ADJ.
On va classer les résultats par forme, et on va compter les occurrences d'apparition de chaque forme.
J'utilise la même requete pour les trois rubriques. Seul le nom de la base de donnée au début doit être modifié poru correspondre au bon fichier.
pour télécharger la requete pour la base de donnée europe.udipipe.xml
On va chercher le nom de notre relation obj dans la 8e balise <a>
Une fois trouvée, on va récupérer la position du dépendant (1er balise <a>) et la position du gouverneur (7e balise <a>), ainsi que la forme du dépendant (2e balise <a>). On cherche à savoir si leur gouverneur est avant ou après le dépendant pour le chercher au bon endroit dans notre fichier (following-sibling ou preceding-sibling).
On va regrouper les résultats par forme et compter leur occurrence.
Requete patron syntaxique | Résultat | Requête extraction relation objet | Résultat |
---|---|---|---|
requete | resultat | requete | resultat |
Requete patron syntaxique | Résultat | Requête extraction relation objet | Résultat |
---|---|---|---|
requete | resultat | requete | resultat |
Requete patron syntaxique | Résultat | Requête extraction relation objet | Résultat |
---|---|---|---|
requete | resultat | requete | resultat |