La troisiéme étape de notre projet consiste à extraire des patrons syntaxiques des fichiers étiquetés produits à l'étape BàO2. Comme aux étapes précédentes, nous avons eu à traiter deux types de fichiers différents : TXT, contenant du texte brut, et XML.

 

Nous avons utilisé des programmes Perl avec des traitements spécifiques pour chaque type de fichier : des expressions régulières pour les sorties texte et des requêtes XPath pour les sorties XML. La base de chaque traitement a été une liste de patrons prédéfinis du type 'ADJ NOM, 'PREP DET NOM' etc.

 

Pour plus de détails, accédez le menu à gauche.