BÀO 3: "Extraction de patrons morphosyntaxiques/relations de dépendances"

Durant cette étape la Boite à Outils consiste à extraire des patrons morphosyntaxiques et des relations de dépendance à partir des fichiers que nous avons étiqueté lors de la seconde étape de Boite à Outils 2. Avec le fichier BAO3.pl, nous allons pouvoir récupérer des patrons morphosyntaxique dans un fichier texte intitulé perl_fichier.txt. Ces patrons vont être comptés et classés par ordre descendant d'occurrences dans le fichier de sortie.

Script Python

Dans notre cas, le script Python nous permet d'effectuer la même tâche que le script Perl BAO3.pl : il vas nous permettre de récupérer des patrons morphosyntaxiques à partir de notre fichier corpus-titre-description.xml. afin de lancer notre script : python BAO3.py corpus.xml [patron] > [sortie]. grace à ça, nous pouvons chercher les patrons NOM-PRP-NOM et mettre un fichier de sortie nommé pattern.txt : python3 BAO3.py corpus.xml NOM PRP NOM > pattern.txt.





Script en Perl

Ce script prend le fichier corpus.xml ainsi que le patron morphosyntaxique recherché (ex. NOM ADJ, DET ADJ NOM, etc.) On lance le script de cette façon : BAO3.pl corpus.xml [patron]. Ainsi, nous allons chercher les patrons NOM-ADJ : BAO3.pl corpus.xml NOM ADJ. En sortie, nous récupérons le fichier perl_fichier.txt.

Ensuite nous allons utilisé le fichier corpus.udpipe que nous avons créer lors de la BàO2 et le mettre au format XML grace au fichier udpipe2xml.pl : perl udpipe2xml.pl corpus.udpipe. En sortie, nous obtenons un fichier XML.

Nous allons utiliser notre nouveau fichier corpus.udpipe.xml afin de récupérer les relations de dépandances. Pour cela, nous utilisons le script extract-relation-udpipe.pl. Dans le terminal, nous allons utiliser la commande : perl extract-relation-udpipe.pl corpus.udpipe.xml [relation] > [sortie]. Ici, nous avons choisit la relation objet ("OBJ") et notre fichier de sortie sera dependance.txt : perl extract-relation-udpipe.pl corpus.udpipe.xml "obj" > dependance.txt.