Boîte à outils n°3 (BAO3)

Extraction de patrons ou de relations de dépendances



L'objectif de cette troisième partie est d'extraire les termes correspondants à un patron morphosyntaxique (ex : NOM ADJ) sur les données étiquetées et d'extraire les relations de dépendances.


Processus suivi pour extraire du contenu textuel à partir d'un patron souhaité

Le programme doit parcourir toutes les lignes du fichier xml obtenu en BAO2 une à une et vérifer si les 2 ou 3 POS coïncident avec le patron. Si oui, il imprime les formes associées.




Extraction de patron NOM ADJ avec PERL à partir du fichier.xml généré dans la BAO2

Le script PERL qui a été utilisé est détaillé dans le lien ci-dessous :

Sur le terminal, la requête suivante a été lancée perl extraction-patron-2022.pl corpus-titre-description.xml NOM ADJ

En sortie, un fichier a été récupéré :





Extraction de patron NOM NOM

En sortie, un fichier a été récupéré :




Extraction de patron NOM PRP NOM

En sortie, un fichier a été récupéré :




Extraction des relations de dépendances avec PERL

Le script PERL qui a été utilisé pour transformer le fichier corpus-titre-description.udpipe en fichier xml est détaillé dans le lien ci-dessous :

Sur le terminal, la requête suivante a été lancée perl BAO3-udpipe2xml.pl corpus-titre-description.udpipe

En sortie, un fichier a été récupéré :





Pour récupérer les relations de dépendances, le script PERL qui a été utilisé est détaillé dans le lien ci-dessous :

La requête suivante a été lancée sur le terminal est perl BAO3-extract-relation-udpipe.py corpus-titre-description.udpipe.xml "obj" > relations_dependance.txt

En sortie, un fichier a été récupéré :





Extraction de patron à l'aide du langage de programmation PYTHON

Un script PYTHON a été utilisé. Il est détaillé dans le lien ci-dessous :


Sur le terminal, la requête suivante a été lancée python BAO3-extraction-patron-python.py corpus-titre-description.xml NOM ADJ > pattern-NOM-ADJ.txt

En sortie, un fichier est récupéré :




Retour en haut