B A O

Projet Encadré 2 - 2017
Alice Missud, Clara Ponchard

RESULTATS

Comparaison des méthodes

Temps de calcul

Les différentes méthodes utilisées ne se valent pas en terme d'optimisation. Nous verrons ici les différents temps de calcul nécessaires au parcours de l'arborescence, à l'étiquetage morphosyntaxique avec TreeTagger et à l'extraction des terminologies correspondant aux tâches des BAO 1, 2 et 3.

PERL

Les temps de calcul ont été obtenus grâce à la commande time au lancement du programme dans l'invite de commande (time script.pl).

BAO1.pl BAO1_RSS.pl BAO2.pl BAO2_RSS.pl BAO3_cordial.pl BAO3_treetagger.pl
00:00:04 00:00:11 03:25:00 03:00:00 00:01:09 00:00:01

PYTHON

Les temps de calcul ont été obtenus grâce au module time importé et utilisé directement dans le script.

BAO1.py BAO2.py BAO3-cordial.py BAO3-treetagger.py
00:00:14 03:30:39 00:00:03 00:00:01

XQUERY

Les temps de calcul ont été donnés directement dans le logiciel Base X à l'issue de chaque traitement. Ici, il ne s'agit que des tâches réalisées par les BAO 1 et 3, à savoir le parcours de l'arborescence et l'extraction des terminologies.

BAO 1 NOM ADJ v.1 NOM ADJ v.2 ADJ NOM v.1 ADJ NOM v.2 NOM PREP NOM
00:00:00.43 00:00:02.64 00:00:00.5 00:00:00.87 00:00:00.57 00:00:01.18


Pour le parcours de l'arborescence (BAO1), le langage le plus optimisé est XQuery. Pour l'étiquetage morphosyntaxique, le script Perl qui utilise la bibliothèque XML::RSS s'est révélé le plus rapide. En ce qui concerne l'extraction des terminologies, les temps de calcul sont plus rapides pour traiter les sorties de TreeTagger que celles de Cordial, aussi bien en Perl qu'en Python. Cependant, XQuery reste le plus optimal pour cette tâche.

Performances des étiquetages

Nous prenons ici les terminologies extraites des patrons NOM ADJ en guise d'éléments de comparaison pour détailler les différences d'étiquetage qui s'observent entre TreeTagger et Cordial.

TreeTagger

Le fichier de tokenisation (tokenise-utf8.pl) utilisé dans tous les scripts de la BAO3 pour l'étiquetage ne semble pas adapté au français : les apostrophes qui suivent les déterminants sont associés directement aux noms lors de l'affichage des terminologies (par excemple : l'Action française plutôt que Action française pour les patrons NOM ADJ). En revanche, TreeTagger repère bien que ce sont des noms, malgré qu'ils soient rattachés à des déterminants. Nous avons constaté que le script de tokenisation propose des options en fonction des langues, ce que nous n'avions pas remarqué au lancement. Avec l'option -f, le script aurait peut-être su détecter les apostrophes et prévenir le problème. Par conséquent, nous nous retrouvons avec du contenu textuel tokenisé comme si c'était de l'anglais, langage par défaut du script.
Nous avons également soulevé différents problèmes lors de l'étiquetage qui semblent directement liés à TreeTagger : les guillemets ouvrants sont considérés comme des adjectifs ou des noms, les déterminants attachés à des prépositions comme "d'un" ou "d'une" sont également considérés comme des adjectifs ou des noms, les pronoms possessifs ("Ma") sont pris pour des noms, de même pour "En" dans "En politique" auquel cas "politique" est catégorisé comme un adjectif. On observe également des problèmes avec les noms propres : les prénoms sont considérés comme des noms, les noms comme des adjectifs. Ce n'est pas un problème au niveau de l'extraction des patrons, mais bien au niveau de l'étiquetage, d'où l'intérêt d'un étiquetage tierce réalisé par Cordial.

Cordial

Les sorties étiquetées par Cordial ne présentent pas tout à fait les mêmes problèmes que celles de TreeTagger. A observer les terminologies extraites, on constate que la tokenisation est bien meilleure, notamment, les déterminants avec apostrophes sont détachés des noms. En revanche, les mots composés sont très mal traités par Cordial, contrairement à TreeTagger, exemple : ras-le-bol fiscal apparaît dans les NOM ADJ de TreeTagger, alors que pour Cordial il apparaît sous la forme -bol fiscal. On constate toujours un problème avec les noms propres (Marine Le Pen, dont il est difficile de savoir lequel est catégorisé comme un adjectif), d'autant plus quand ils sont composés (Royaume -Uni). Par ailleurs, nombre de terminologies correctement extraites étiquetées par TreeTagger n'apparaissent pas parmi celles étiquetées par Cordial : on compte 11 633 terminologies pour TreeTagger contre 10 146 pour Cordial, donc 1 486 terminologies manquantes comme manifestation pro-palestinienne ou stade toulousain.

Pour conclure, les résultats sont certainement biaisés par la mauvaise tokenisation préalable pour l'étiquetage de TreeTagger, mais même si on compte moins de terminologies extraites pour Cordial, celui-ci est plus fin et fait moins d'erreurs de catégorisation. On observe par ailleurs bien moins d'erreurs des deux côtés dans l'extraction des NOM PREP NOM ou des NOM VER PREP NOM.

Graphes

Nous avons fait le choix de réaliser les graphes uniquement à partir des sorties Cordial, car comme nous l'avons précisé dans la partie précédente, l'étiquetage est plus pertinent et contient moins d'erreurs. Nous avons également choisi de ne pas traiter les patrons NOM ADJ et de baser notre analyse sur les patrons NOM PREP NOM, mieux réussis que les autres.

avec

Nous avons choisi d'analyser dans un premier temps la préposition avec car parmi les prépositions françaises, c'est une des plus complexes, les plus riches sémantiquement, et les plus souples dans les fonctions syntaxiques qu'elle est susceptible d'assumer (cf. Charlotte Schapira, "Le cas de avec : Préposition et conjonction ?"). Le sens de cette préposition est fondamentalement relationnel. Sa valeur sémantique varie principalement en fonction du sens, du nom tête et du complément qu'elle introduit. Cette préposition peut avoir un sens instrumental (exemple : "Luc mange avec une fourchette"), un sens d'accompagnement ("Luc mange avec son copain"), ou bien exprimer une façon ou une manière. Ce qui distingue cette proposition des autres est qu'elle autorise non seulement un emploi anaphorique mais aussi déictique.

3208

Avec est majoritairement présent dans la rubrique A La Une, ce qui était prévisible au vu de la diversité des sujets qu'elle traite. La fonction principale d'un syntagme prépositionnel est d'être un complément (nom, verbe, d'adjectif) ce qui explique la polysémie des résultats. Les différents syntagmes sont employés pour préciser une information, il n'y a donc pas de corrélation particulière entre les différents emplois. La rubrique A La Une a pour but de traiter les actualités les plus importantes de manière à la fois synthétique et explicite ce qui necessite l'emploi de syntagmes prépositionnels qui viennent compléter le sens d'une information, et plus particulièrement de la préposition avec qui a ici un sens d'acommpagnement ou de manière. On constate par ailleurs que la préposition se retrouve dans des expressions relevant du domaine juridique ("avec préméditation", "violences avec arme").
Nous émettons l'hypothèse qu'elle est moins présente dans les autres rubriques car les sujets traités sont moins diversifiés que dans la rubrique A La Une.

3210

Dans la rubrique International, avec n'apparaît que dans deux cas : soit pour exprimer la relation d'accompagnement, soit pour exprimer une façon ou une manière.

3214

Dans cette dernière rubrique Europe, avec apparaît seulement dans "voitures avec chauffeur", qui peut être analysé comme une expression figée. Il est normal de la trouver moins présente étant donné que c'est une préposition qui véhicule un contenu sémantique précis (contrairement à de par exemple).

violence(s)

Nous avons également cherché à voir les relations qu'entretient le mot violence au singulier et au pluriel, ce mot permettant de relever les différents évènements relayés en 2017 en fonction des adjectifs qui le suivent (sexuelles, policières, etc). Cette fois, nous nous sommes servies de l'ensemble des terminologies extraites avec la BAO3-cordial en Python, contenant des NOM ADJ, ADJ NOM et NOM PREP NOM.

3208

On trouve naturellement plus de prépositions et de diversités dans les termes qui les précèdent ou les suivent dans la rubrique A La Une. Des constructions NOM PREP NOM telles que actes/victimes/semaines de violences, violences en réunion/milieu/état ou violences avec arme (à nouveau relevant du domaine juridique) apparaissent. Pas de ADJ NOM, mais en ce qui concerne les NOM ADJ, les adjectifs caractérisent généralement la notion de la violence. On constate ainsi que violence(s) policière(s) est le plus présent (10 occurrences).

3210

La rubrique International contient également les adjectifs domestique, terroriste, sexuelle et policière. On observe donc que ce sont globalement les mêmes sujets qui sont traités ici que dans la rubrique A La Une, bien qu'ils soient visiblement moins nombreux. En revanche, aucun patron NOM PREP NOM n'apparaît dans cette rubrique.

3214

La rubrique Europe présente des NOM PREP NOM tels que victimes de violences ou violence sans précédent. Elle comporte également les mêmes adjectifs mentionnés précédemment (domestique, terroriste, sexuelle, policière).

Conclusion

Il est intéressant de constater que la violence est généralement associée à une violence "involontaire", "injustifiée", "extrême" ou "inouïe". La visualisation des relations qu'entretient ce mot avec d'autres dans le corpus permet notamment de faire l'hypothèse que les violences relayées par le journal Le Monde sont majoritairement des violences policières (par ou envers des policiers). On remarque également que le journal a relayé plusieurs évènements relatifs aux violences domestiques et sexuelles, ces dernières faisant peut-être référence à l'affaire Weinstein et au mouvement #MeToo. L'analyse des relations et la visualisation en graphe permettrait d'effectuer un travail plus approfondi sur la façon dont les médias traitent un certain nombre de sujets, et pourrait également dresser un portrait de l'opinion de certaines personnalités publiques mentionnées dans les titres et description des articles du Monde.