BAO4

L'objectif de cette quatrième et dernière boîte à outils est d'engendrer, grâce à l'outil patron2graphe, des graphes projetant les relations d'attirance qu'entretiennent les termes d'un patron morphosyntaxique préalablement extrait. Les graphes permettent de visualiser de façon plus lisible et structurée ces relations.

                          

patron2graph ne possède pas d’interface graphique, il est invoqué depuis un interprète de commandes. Le programme prend comme arguments : le codage, le fichier des patrons et facultativement un fichier du motif. Il se lance comme suit:

                    ./patron2graphe.exe "codagedes2fichiers" FichierEnEntree [FichierContenantLeMotif]

patron2graph - Cordial



                                                            Graphe de mots autout du motif: politique



                                                            Graphe de mots autout du motif: euros

patron2graph - TreeTagger



                                                            Graphe de mots autout du motif: politique



                                                            Graphe de mots autout du motif: euros

Comparaison des résultats

Les deux graphes générés, bien que très similaires, sont différents sur quelques points. Le graphe généré par la méthode Cordial inclut certains termes que l'on ne retrouve pas dans le graphe généré par la méthode Treetagger. Cela s'explique par le fait que l'un des deux programmes apporte des informations différentes de l'autre. Il n’y a pas, alors, d’équivalence stricte entre les différentes étiquettes, obtenues par les deux étiqueteurs. Cela peut relever de différences intrinsèques aux programmes utilisés pour réaliser l’apprentissage des catégories. TreeTagger par exemple, lors de l'étiquetage morpho-syntaxique, n'a pas associé à quelques formes du corpus la bonne étiquette morpho-syntaxique, et voilà un exemple:

TreeTagger a associé la catégorie grammaticale "nom" à la préposition "à", et par conséquent, lors de l'extraction des patrons syntaxiques sur les sorties de l'étiquetage effectué via Treetagger, la feuille se style affiche des suites de mots qui ne correspondent pas aux patrons prédéfinis telles que les suites:

Dans les travaux en traitement automatique des textes, l’étiquetage morpho-syntaxique est une tâche de pré-traitement récurrente. Les résultats de l’étiquetage servent de support à des tâches plus complexes ou de plus haut niveau linguistique : l’extraction terminologique, la recherche d’informations, la recherche de patrons grammaticaux et sémantiques, la fouille d’opinions, la catégorisation de textes, la détection de dérivation de textes, etc. En revanche, les erreurs de résolution des rôles grammaticaux ont un impact non-négligeable sur les résultats exploités.