BAO3

Extraction de patrons

Les extractions

Dans cette étape, nous prenons les fichiers annotés obtenus à l'issue de la BAO2, et nous les examinons afin d'en extraire des patrons morphosyntaxiques particuliers (type Nom-ADJ, PREP-V, etc). Il y a plusieurs méthodes pour effectuer cette extraction, nous allons en examiner trois : l'extraction de patrons de Cordial, la feuille de style XSL, et la requête XQuery.

La première utilise bien évidemment les fichiers qui ont été traités avec la méthode Cordial : ici j'utilise donc les fichiers que j'ai empruntés. La seconde et la troisième utilisent les fichiers XML qui résultent de la méthode TreeTagger. Ces fichiers étant pour la plupart assez volumineux, nous avons fait nos tests sur les fichiers XML les plus légers, et donc pas sur toutes les rubriques.

Extraction de patrons de Cordial

Pour cette extraction, nous utilisons le programme fait en cours visible ci-contre, et disponible ici. Il traite les patrons de Cordial, dont on trouve deux types : ceux à 'points' et deux sans (du type NC.. et NCFS/NCMS respectivement, pour un nom commun). On voit aux lignes 29 et 30 qu'il y a deux traitements, un pour chaque patron.

Ci-contre un exemple de retour en utilisant les patrons sans points sur la rubrique 3246. Pour lancer le programme dans la fenêtre de commande, il faut écrire une commande du type "perl perlJMD-final.pl [fichierenentrée] [fichierdepatrons]", avec le fichier d'entrée au format .cnr, et le fichier de patrons contenant les patrons recherchés.

Ci-contre un exemple de retour en utilisant les patrons avec point sur la rubrique 3246. On remarque que pour les mêmes patrons recherchés avec les deux méthodes différentes, celle avec les patrons à points semble mieux fonctionner.

Les sorties obtenues sont disponibles ici.

Feuille de style XSL

On peut utiliser des feuilles de style XSL sur des fichiers XML afin de contrôler l'affichage final, ou encore de changer le format du fichier produit(texte, html, etc.) Cette méthode ne produit pas un fichier permanent à proprement parler. Ci-contre, un aperçu de la feuille de style, avec laquelle on sélectionne les patrons NOM-ADJ et NOM-V-PREP.

Ci-contre un exemple de retour, testé sur la rubrique 3546.

La feuille de style est disponible ici. Afin de l'utiliser avec un autre fichier XML, il faut la déclarer comme étant la feuille de style de ce fichier en particulier ! À noter aussi que c'est une méthode qui est facile à adapter pour différents patrons.

Requête XQuery\XPath

La méthode de requête XQuery nécessite un logiciel qui puisse la traiter. Nous avons utilisé BaseX, qui est très simple d'utilisation. Il permet, grâce à une requête plus ou moins complexe, de sélectionner les noeuds qui nous intéressent dans un fichier XML - ici, les noeuds correspondant à nos patrons morphosyntaxiques. Comme la méthode de la feuille de style, elle est facile à adapter pour différents patrons. Ci-contre un exemple de requête pour le patron NOMPRNOM - nom préposition nom.

Ci-contre un exemple de résultats. On peut trouver d'autres exemples ici, bien que je n'ai pas traité toutes les rubriques (seulement celles obtenues dans la BAO2). On peut également trouver certaines des requêtes testées ici.