Procédure 3 : BàO 3


EXTRACTION DE PATRONS

Présentation de BàO 3

Objectif :
  - Extraire des patrons morphosyntaxiques.

Moyens :
  - Perl : extraire les patrons dans le fichier .txt étiquetés par Talismane.
  - XSLT : extraire les patrons dans le fichier .xml étiqutés par TreeTagger.
  - XQurey : extraire les patrons dans le fichier .xml étiqutés par Talismane et TreeTagger.

Types de patrons à extraire :
  - NOM PREP NOM PREP
  - VERBE DET NOM
  - NOM ADJ
  - ADJ NOM

Moyen 1 : Perl

Ayant obtenu les fichiers texte dont les phrases sont étiqueté par Talismane, nous utilisons le script présenté en cours. Nousn lançons la commande ci-dessous dans le terminal pour exécuer notre script.


Voici les résultats pour les patros NOM-PREP-NOM-PREP et V-DET-N récupérés :

NOM-PREP-NOM-PREP 3246-CULTURE 3546-VOYAGE 3208-UNE

VERB-DET-NOM 3246-CULTURE 3546-VOYAGE 3208-UNE

Moyen 2 : XSLT

Nous pouvons également utiliser le langage XSLT ,qui permet de transformer d'un document XML vers un autre schema ou format (XHTML, XSL-FO, HTML, etc.), pour extraire les patrons. Ainsi, les fichiers utilisés sont les fichiers XML étiqutés par TreeTagger obtenues dans la phase de Bào2 et nous avons créé des feuiles de style XSLT pour extraire les diffénts patrons.
Voici les scrpits pour extraire :
ADJ-NOM / NOM-ADJ / NOM-PREP-NOM-PREP / VERB-DET-NOM
La ligne de commande lancée sur le terminal est :

Ainsi nous avons obtenu chauque type de patron dans différentes rubriques. On compare les résultats avec ceux qui sont obtenus par le script perl. À l'exemple du patron NOM-PREP-NOM-PREP et VERB-DET-NOM dans le texte3208-UNE :

NOM-PREP-NOM-PREP 3208-UNE

VERB-DET-NOM 3208-UNE

Moyen 3 : XQuery

Contraiment au langage XSLT qui vise principalement pour tranformer, le langage XQuery est un langage de requêtes pour des documents et bases de documents XML. À l'aide du logiciel BaseX, les patrons sont extraits après le lancement des reqûtes telles que la figure ci-dessous. Mais à noter que les textes étiqutés par Talismane ne sont pas au format XML, nous les avons convertis grâce au script talismane2xml-v2.pl présenté au cours.
ex : Requêtes XQuery pour extraire le patron NOM-PREP-NOM-PREP :


Le résultat est ci-dessous, à l'exemple du notre rubrique sélectionné Voyage :

BÀO 3 : BIS

Dans cette étape, nous nous intéressons à obtenir des résultats sous forme de graphes. Donc nous avons utilisé le programme patron3graph
La ligne de commande pour le lancement est : ./patron2graphedemots-unix "utf-8" ADJ_N_3208.txt motif.txt
Comme nos rubriques choisies concernent la culture et le voyage, notre motif est le mot \"pays\".
Voici quelquels exemples :
ex : pays dans les text N_ADJ_3246.txt-CULTURE


ex : pays dans les text V_DET_N_3208.txt - UNE


Fichiers :


Entrées


Scripts


Résultats