La boîte à outils N°3

Présentation

La BAO 3 filtre avec des patrons morphosyntaxiques les données créées dans la BAO 2. Il y a plusieurs langages pour réaliser cette tâche : Perl, Python, XSLT ou XQuery. Nous avons décidé de traiter ces données avec XSLT, un langage de transformation des fichiers XML. Avec une feuille de style XSLT. On extrait plusieurs patrons morphosyntaxiques de la rubrique technologies.

Rubrique technologies étiqueteur TreeTagger

TreeTagger est un outil qui permet d'annoter un texte avec des informations sur les parties du discours, il fonctionne avec un arbre de décision, un outil d'aide à la décision et à la classication. C'est l'étiqueteur le plus utilisé pour le français.

Documentation TreeTagger (en français)

NOM PREP NOM PREP

requête

icone

sortie texte

icone

sortie html

icone

VERBE DET NOM

requête

icone

sortie texte

icone

sortie html

icone

NOM ADJ

requête

icone

sortie texte

icone

sortie html

icone

ADJ NOM

requête

icone

sortie texte

icone

sortie html

icone

Rubrique technologies étiqueteur Talismane

Talismane est un analyseur de dépendance statistique, écrit en Java. Le traitement qu’il effectue se déroule en quatre étapes : le découpage en phrases, la segmentation en mots, l'étiquetage, et le parsing. L'outil a été conçu en entraînant un modèle probabiliste sur un corpus annoté. Le fichier créé par Talismane est une liste de tokens étiquetés dont les informations d’une ligne sont séparées par des tabulations, donc avant de pouvoir extraire les patrons avec XSLT on doit convertir ce fichier au format xml avec un script Perl.

Télecharger script de conversion un fichier talismane au format XML
Documentation Talismane (en français)
Documentation Talismane (en anglais)

NOM PREP NOM PREP

requête

icone

sortie texte

icone

sortie html

icone

VERBE DET NOM

requête

icone

sortie texte

icone

sortie html

icone

NOM ADJ

requête

icone

sortie texte

icone

sortie html

icone

ADJ NOM

requête

icone

sortie texte

icone

sortie html

icone

Résultats des étiqueteurs

On peut constater que les résultats varient selon les étiqueteurs, et que dans chaque résultat, on voit des erreurs d'étiquetage. Cependant les résultats de TreeTagger sont meilleurs que ceux de Talismane. Dans Talismane, beaucoup de noms sont considérés comme des signes de ponctuation. Nous avons extrait les patrons de chaque rubrique avec les deux étiqueteurs.

Des textes aux graphes

Nous allons présenter les patrons extraits sous forme de graphes. Pour cela, nous allons utiliser le programme patron2graphedemots-unix qui prend en paramètres : l'encodage des fichiers qu'on passe au programme, le fichier avec les patrons morphosyntaxiques, et, si on veut filtrer les résultats en repérant un motif donné, le fichier contenant ce motif. « patron2graphe.exe "codagedes2fichiers" FichierEnEntree FichierContenantLeMotig -> patron2graphe.exe "iso-8859-1" patrons.txt motif.txt » Nous n'avons gardé que les patrons correctement étiquetés.

Voici un aperçu du graphe avec le motif situation des rubriques à la une et actualite-medias

Voici un aperçu du graphe sans aucun motif visée de la rubrique technologies

iTrameur

Voici un graphe fait avec iTrameur, nous avons extrait le patron verbe déterminant nom de la rubrique technologies.