Lauryane Bonduelle

Programmation et Projet encadré

BAO3 - Extraction des Patrons

"BAO3, Extraction de patrons : recherche et extraction de termes sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.) ou de relations de dépendances (cf Cours Documents Structurés)"

Pour cet exercice, on part du résultat XML du script python de la BAO2, BAO2_py.xml. À partir de ce document, on va extraire des patrons de catégories grammaticales présents dans les titres et descriptions de la rubrique.

Les patrons à extraire sont :

Les deux patrons que j'ai choisi en plus sont :

Les deux scripts sont à lancer avec comme arguments : [fichier xml annoté][patron souhaité]

Script Python

Le script parcours les balises <element>, et lorsqu'il trouve la POS souhaitée, récupère la forme du mot, ce à chaque fois que le patron apparait.

Script Perl

Le script parcours les balises <element>, et lorsque la POS correspond à la première du patron, il cherche dans l'element suivant si la POS correspond à celle qui suit dans le patron. Il récupère les formes des mots et les sort dans un txt.

XSLT

Voici les feuilles xslt qui en étant associées au fichier xml utilisé peuvent également sortir les patrons souhaités. J'ai créé les feuilles pour les deux relations NOM-ADJ et VERBE-DET-NOM

XQuery

Il est également possible de récupérer ces mêmes résultats avec Xquery. Comme exemple voici la requête et le résultat pour NOM-ADJ.