La BAO 3 filtre avec des patrons morphosyntaxiques les données créées dans la BAO 2. Il y a plusieurs langages pour réaliser cette tâche : Perl, Python, XSLT ou XQuery. Nous avons décidé de traiter ces données avec XSLT, un langage de transformation des fichiers XML. Avec une feuille de style XSLT. On extrait plusieurs patrons morphosyntaxiques de la rubrique technologies.
TreeTagger est un outil qui permet d'annoter un texte avec des informations sur les parties du discours, il fonctionne avec un arbre de décision, un outil d'aide à la décision et à la classication. C'est l'étiqueteur le plus utilisé pour le français.
Documentation TreeTagger (en français)NOM PREP NOM PREP
VERBE DET NOM
NOM ADJ
ADJ NOM
Talismane est un analyseur de dépendance statistique, écrit en Java. Le traitement qu’il effectue se déroule en quatre étapes : le découpage en phrases, la segmentation en mots, l'étiquetage, et le parsing. L'outil a été conçu en entraînant un modèle probabiliste sur un corpus annoté. Le fichier créé par Talismane est une liste de tokens étiquetés dont les informations d’une ligne sont séparées par des tabulations, donc avant de pouvoir extraire les patrons avec XSLT on doit convertir ce fichier au format xml avec un script Perl.
Télecharger script de conversion un fichier talismane au format XMLNOM PREP NOM PREP
VERBE DET NOM
NOM ADJ
ADJ NOM
On peut constater que les résultats varient selon les étiqueteurs, et que dans chaque résultat, on voit des erreurs d'étiquetage. Cependant les résultats de TreeTagger sont meilleurs que ceux de Talismane. Dans Talismane, beaucoup de noms sont considérés comme des signes de ponctuation. Nous avons extrait les patrons de chaque rubrique avec les deux étiqueteurs.
Nous allons présenter les patrons extraits sous forme de graphes. Pour cela, nous allons utiliser le programme patron2graphedemots-unix qui prend en paramètres : l'encodage des fichiers qu'on passe au programme, le fichier avec les patrons morphosyntaxiques, et, si on veut filtrer les résultats en repérant un motif donné, le fichier contenant ce motif. « patron2graphe.exe "codagedes2fichiers" FichierEnEntree FichierContenantLeMotig -> patron2graphe.exe "iso-8859-1" patrons.txt motif.txt » Nous n'avons gardé que les patrons correctement étiquetés.
Voici un aperçu du graphe avec le motif situation des rubriques à la une et actualite-medias
Voici un aperçu du graphe sans aucun motif visée de la rubrique technologies
Voici un graphe fait avec iTrameur, nous avons extrait le patron verbe déterminant nom de la rubrique technologies.