Comparaison des méthodes
Temps de calcul
Les différentes méthodes utilisées ne se valent pas en terme d'optimisation. Nous verrons ici les différents temps de calcul nécessaires au parcours de l'arborescence, à l'étiquetage morphosyntaxique avec TreeTagger et à l'extraction des terminologies correspondant aux tâches des BAO 1, 2 et 3.
PERL
Les temps de calcul ont été obtenus grâce à la commande time au lancement du programme dans l'invite de commande (time script.pl
).
BAO1.pl | BAO1_RSS.pl | BAO2.pl | BAO2_RSS.pl | BAO3_cordial.pl | BAO3_treetagger.pl |
---|---|---|---|---|---|
00:00:04 | 00:00:11 | 03:25:00 | 03:00:00 | 00:01:09 | 00:00:01 |
PYTHON
Les temps de calcul ont été obtenus grâce au module time
importé et utilisé directement dans le script.
BAO1.py | BAO2.py | BAO3-cordial.py | BAO3-treetagger.py |
---|---|---|---|
00:00:14 | 03:30:39 | 00:00:03 | 00:00:01 |
XQUERY
Les temps de calcul ont été donnés directement dans le logiciel Base X à l'issue de chaque traitement. Ici, il ne s'agit que des tâches réalisées par les BAO 1 et 3, à savoir le parcours de l'arborescence et l'extraction des terminologies.
BAO 1 | NOM ADJ v.1 | NOM ADJ v.2 | ADJ NOM v.1 | ADJ NOM v.2 | NOM PREP NOM |
---|---|---|---|---|---|
00:00:00.43 | 00:00:02.64 | 00:00:00.5 | 00:00:00.87 | 00:00:00.57 | 00:00:01.18 |
Pour le parcours de l'arborescence (BAO1), le langage le plus optimisé est XQuery. Pour l'étiquetage morphosyntaxique, le script Perl qui utilise la bibliothèque XML::RSS s'est révélé le plus rapide. En ce qui concerne l'extraction des terminologies, les temps de calcul sont plus rapides pour traiter les sorties de TreeTagger que celles de Cordial, aussi bien en Perl qu'en Python. Cependant, XQuery reste le plus optimal pour cette tâche.
Performances des étiquetages
Nous prenons ici les terminologies extraites des patrons NOM ADJ en guise d'éléments de comparaison pour détailler les différences d'étiquetage qui s'observent entre TreeTagger et Cordial.
TreeTagger
Le fichier de tokenisation (tokenise-utf8.pl
) utilisé dans tous les scripts de la BAO3 pour l'étiquetage ne semble pas adapté au français : les apostrophes qui suivent les déterminants sont associés directement aux noms lors de l'affichage des terminologies (par excemple : l'Action française plutôt que Action française pour les patrons NOM ADJ
). En revanche, TreeTagger repère bien que ce sont des noms, malgré qu'ils soient rattachés à des déterminants. Nous avons constaté que le script de tokenisation propose des options en fonction des langues, ce que nous n'avions pas remarqué au lancement. Avec l'option -f
, le script aurait peut-être su détecter les apostrophes et prévenir le problème. Par conséquent, nous nous retrouvons avec du contenu textuel tokenisé comme si c'était de l'anglais, langage par défaut du script.
Nous avons également soulevé différents problèmes lors de l'étiquetage qui semblent directement liés à TreeTagger : les guillemets ouvrants sont considérés comme des adjectifs ou des noms, les déterminants attachés à des prépositions comme "d'un" ou "d'une" sont également considérés comme des adjectifs ou des noms, les pronoms possessifs ("Ma") sont pris pour des noms, de même pour "En" dans "En politique" auquel cas "politique" est catégorisé comme un adjectif. On observe également des problèmes avec les noms propres : les prénoms sont considérés comme des noms, les noms comme des adjectifs. Ce n'est pas un problème au niveau de l'extraction des patrons, mais bien au niveau de l'étiquetage, d'où l'intérêt d'un étiquetage tierce réalisé par Cordial.
Cordial
Les sorties étiquetées par Cordial ne présentent pas tout à fait les mêmes problèmes que celles de TreeTagger. A observer les terminologies extraites, on constate que la tokenisation est bien meilleure, notamment, les déterminants avec apostrophes sont détachés des noms. En revanche, les mots composés sont très mal traités par Cordial, contrairement à TreeTagger, exemple : ras-le-bol fiscal apparaît dans les NOM ADJ de TreeTagger, alors que pour Cordial il apparaît sous la forme -bol fiscal. On constate toujours un problème avec les noms propres (Marine Le Pen, dont il est difficile de savoir lequel est catégorisé comme un adjectif), d'autant plus quand ils sont composés (Royaume -Uni). Par ailleurs, nombre de terminologies correctement extraites étiquetées par TreeTagger n'apparaissent pas parmi celles étiquetées par Cordial : on compte 11 633 terminologies pour TreeTagger contre 10 146 pour Cordial, donc 1 486 terminologies manquantes comme manifestation pro-palestinienne ou stade toulousain.
Pour conclure, les résultats sont certainement biaisés par la mauvaise tokenisation préalable pour l'étiquetage de TreeTagger, mais même si on compte moins de terminologies extraites pour Cordial, celui-ci est plus fin et fait moins d'erreurs de catégorisation. On observe par ailleurs bien moins d'erreurs des deux côtés dans l'extraction des NOM PREP NOM
ou des NOM VER PREP NOM
.
Graphes
Nous avons fait le choix de réaliser les graphes uniquement à partir des sorties Cordial, car comme nous l'avons précisé dans la partie précédente, l'étiquetage est plus pertinent et contient moins d'erreurs. Nous avons également choisi de ne pas traiter les patrons NOM ADJ
et de baser notre analyse sur les patrons NOM PREP NOM
, mieux réussis que les autres.
avec
Nous avons choisi d'analyser dans un premier temps la préposition avec car parmi les prépositions françaises, c'est une des plus complexes, les plus riches sémantiquement, et les plus souples dans les fonctions syntaxiques qu'elle est susceptible d'assumer (cf. Charlotte Schapira, "Le cas de avec : Préposition et conjonction ?"). Le sens de cette préposition est fondamentalement relationnel. Sa valeur sémantique varie principalement en fonction du sens, du nom tête et du complément qu'elle introduit. Cette préposition peut avoir un sens instrumental (exemple : "Luc mange avec une fourchette"), un sens d'accompagnement ("Luc mange avec son copain"), ou bien exprimer une façon ou une manière. Ce qui distingue cette proposition des autres est qu'elle autorise non seulement un emploi anaphorique mais aussi déictique.
3208
Avec est majoritairement présent dans la rubrique A La Une, ce qui était prévisible au vu de la diversité des sujets qu'elle traite. La fonction principale d'un syntagme prépositionnel est d'être un complément (nom, verbe, d'adjectif) ce qui explique la polysémie des résultats. Les différents syntagmes sont employés pour préciser une information, il n'y a donc pas de corrélation particulière entre les différents emplois. La rubrique A La Une a pour but de traiter les actualités les plus importantes de manière à la fois synthétique et explicite ce qui necessite l'emploi de syntagmes prépositionnels qui viennent compléter le sens d'une information, et plus particulièrement de la préposition avec qui a ici un sens d'acommpagnement ou de manière. On constate par ailleurs que la préposition se retrouve dans des expressions relevant du domaine juridique ("avec préméditation", "violences avec arme").
Nous émettons l'hypothèse qu'elle est moins présente dans les autres rubriques car les sujets traités sont moins diversifiés que dans la rubrique A La Une.
3210
Dans la rubrique International, avec n'apparaît que dans deux cas : soit pour exprimer la relation d'accompagnement, soit pour exprimer une façon ou une manière.
3214
Dans cette dernière rubrique Europe, avec apparaît seulement dans "voitures avec chauffeur", qui peut être analysé comme une expression figée. Il est normal de la trouver moins présente étant donné que c'est une préposition qui véhicule un contenu sémantique précis (contrairement à de par exemple).
violence(s)
Nous avons également cherché à voir les relations qu'entretient le mot violence au singulier et au pluriel, ce mot permettant de relever les différents évènements relayés en 2017 en fonction des adjectifs qui le suivent (sexuelles, policières, etc). Cette fois, nous nous sommes servies de l'ensemble des terminologies extraites avec la BAO3-cordial en Python, contenant des NOM ADJ
, ADJ NOM
et NOM PREP NOM
.
3208
On trouve naturellement plus de prépositions et de diversités dans les termes qui les précèdent ou les suivent dans la rubrique A La Une. Des constructions NOM PREP NOM
telles que actes/victimes/semaines de violences, violences en réunion/milieu/état ou violences avec arme (à nouveau relevant du domaine juridique) apparaissent. Pas de ADJ NOM
, mais en ce qui concerne les NOM ADJ
, les adjectifs caractérisent généralement la notion de la violence. On constate ainsi que violence(s) policière(s) est le plus présent (10 occurrences).
3210
La rubrique International contient également les adjectifs domestique, terroriste, sexuelle et policière. On observe donc que ce sont globalement les mêmes sujets qui sont traités ici que dans la rubrique A La Une, bien qu'ils soient visiblement moins nombreux. En revanche, aucun patron NOM PREP NOM
n'apparaît dans cette rubrique.
3214
La rubrique Europe présente des NOM PREP NOM
tels que victimes de violences ou violence sans précédent. Elle comporte également les mêmes adjectifs mentionnés précédemment (domestique, terroriste, sexuelle, policière).