Projet encadré 2 | corpus Le Monde 2016

Ce site concere le cours Programmation et projet encadré 2, plus familiarement connu comme cours boîte à outils pour le fait qu'on manipule différentes solutions et on apprend différentes méthodes pour resoudre des tâche d'extraction de textes (1), d'étiquetage (2), d'extraction de patrons morphosyntaxiques et de motifs lexicaux (3) et d'affichage des résultats (4).
L'objectif d'apprentissage d'un langage de programmation, son utilisation sur diverses applications pour effectuer des traitements de corpus et une analyse linguistique sur ce dernier fait suite au cours du premier semestre tenu également par les professeurs Jean-Michel Daube et Serge Fleury à l'ILPGA - Paris 3 Sorbonne Nouvelle pour le master 1 Traitement Automatique des Langues.

Outils

Le langage de programmation Perl est à la base de ce projet, ce langage nous a permis de creer des programmes simples et efficaces pour effectuer les opérations déjà citées grâce à la manipulation de chaînes de caractères, la syntaxe intuitive, les expressions regulières et la gestion de volumes de données importants, le cas ici d'une d'un recueil journalistique sur une année entière.
Ecrits en Perl et présentés plus en détail dans l'autre page dediées de ce site sont aussi l'étiqueteur treeTagger, le programme permettant de transformer les résultats de ce dernier en format XML et celui pour l'extraction de patrons à partir des données obtenu sur l'annotation de Cordial (logiciel non open source et payant utilisé sur machines universitaires). On s'est servi du langage XSLT pour extraire en revanche ceux sous forme XML.

Les Boîtes à Outils —»

Les noyaux du projet

Corpus

Le corpus réuni pour effectuer cette analyse a été composé tout au long de l'année 2016, il comprend le fils RSS des différentes rubriques du journal Le Monde. Le dossier d'entrée 2016 contient douze sous-dossiers correspondants aux mois de l'année et chaque sous-dossier contient autant de sous-dossier que de jour du mois, le dernier dossier correspond à l'heure à laquelle les fils ont été recueillis (approximativement 19h) et c'est ici qu'on retrouve les fichiers textes composants notre corpus. Chaque rubrique ayant un code unique pour l'identifier on a pu conséquemment choisir et trier les fils qu'on préférait analyser, ici on s'est concentré sur les rubriques :

651865 Technologies .xml .txt .cnr ;
3244 Sciences .xml .txt .cnr ;
3236 Médias .xml .txt .cnr ;
3246 Culture .xml .txt .cnr ;

à l'interieur du fils RSS sont contenu plusieurs informations (nom du fichier, URL, date, etc.) alors que nous nous sommes intéressé à en extraire uniquement les titres et les descriptions de chaque articles. Après les différents nettoyages et qu'on s'assure qu'un article apparaît une seule fois, on obtient deux fichiers résultats, un .txt et un .xml.
Ces deux fichiers seront les objets de l'étiquetage, le .txt à travers Cordial, le XML est soumis à treeTagger, appelé tout de suite dans le script pour nous renvoyer un résultat immédiat (voir la sous-routine etiquette lignes 95-129 dans le script de la boîte à outils 1 et demi).

Extractions

On traitera ici la phase d'extraction des patrons morphosyntaxiques et de motifs lexicaux effectuée sur les sous-corpus résultant des boîtes à outils 1 et 2. Cette extraction a été effectuée trois fois pour chaque rubrique et pour les 5 patrons (60 fichiers résultats au total), sur le XML résultant de treeTagger, sur le .txt toujours provenant de l'étiquetage treeTagger et une troisième sur le .cnr le fichier étiiqueté produit par Cordial. Pour XML on a opéré avec des feuilles de style XSLT produisantes des fichiers textes avec les résultats des patrons recherchés à l'interieur de la structure XML, dans les deux autres cas vu qu'il s'agissait déjà de fichiers texte presentants une structure bien definie, string\tPOS\tlemma pour treeTagger et string\tlemma\tPOS pour Cordial, à travers un script on a pu analyser les différentes lignes et garder les informations qui nous interessaient (les deux versions sont presentes dans l'autre page de ce site). Avant de passer à la phase d'évaluation des extraction on a bien pris soin de nettoyer les textes des eventuelles lignes vides qui pouvait gêner la comparaison et le comptage.

Les patrons morphosyntaxiques. Comme on l'a dit, ici à partir des annotations effectué par les deux programmes on obtient des listes d'éléments qui peuvent nous aider à comparer et comprendre comment un programme travaille par rapport à l'autre voire s'il y a des éléments ambigue sur lesquels il faudrait améliorer. Il y a des considerations importantes à faire avant de procéder aux résultats, en premier lieu on pourrait s'attendre que l'extraction de patrons sur l'étiquetage treeTagger soit la même qu'il s'agit de résultats provenants du script ou de l'extraction à travers XSL, evidemment ce n'est pas le cas. Ces résultats presentent très peu de points commun, ceci est sûrement dû à la non parfaite extraction de la part du script, qui à la base était fait pour travailler sur le fichier Cordial et du coup a été adapté pour en tester un peu à l'aveugle les capacités.
Un autre point important, le volume des extraction n'est pas du tout le même sur des mêmes patrons, il n'y a pas des enormes différences non plus mais le nombre de résultats extraits n'arrive jamais à être le même. On comprend bien à partir de ce point aussi que les patrons extraits diffèrent largement. Une dernière consideration doit évidemment être reservé à la qualité des annotations pas toujours impeccable, on retrouve pas mal de bruit dans les résultats et souvent concernant les mêmes éléments. On peut en général considérer que vu les outils à disposition, treeTagger est un projet gratuit toujours améliorable et la version de Cordial utilisée un peu daté, les annotations obtenues ne sont pas mauvais et en enlevant le bruit on peut se rendre compte assez bien du corpus qu'on avait à disposition et de ces caractéristiques.

Les couples ou triples de patrons recherchés correspondent au motifs qui a ont été soumis aux scripts et aux requêtes XPath nous donnant les résultats suivants, vous aurez à disposition les liens pour les fichiers complets de chaque résultat et pour celui des annotations communes si disponible :

on a commecé avec un classique Nom Adjectif

Technologies, 60 N.+ ADJ.+ | 47 NOM ADJ | 54 XSL | 14 communs entre les deux treeTagger
Sciences, 3117 N.+ ADJ.+ | 2628 NOM ADJ | 3146 XSL |3 communs
Médias, 964 N.+ ADJ.+ | 794 NOM ADJ | 917 XSL | 2 communs entre les deux treeTagger
Culture, 3413 N.+ ADJ.+ | 2880 NOM ADJ | 3209 XSL | 36 communs entre les deux treeTagger

le deuxième motif a été Verbe Adverbe

Technologies, 36 V.+ ADV.+ | 27 VER.+ ADV | 23 XSL | 2 communs entre les deux treeTagger
Sciences, 1046 V.+ ADV.+ | 942 VER.+ ADV | 556 XSL | 0 commun
Médias, 384 V.+ ADV.+ | 320 VER.+ ADv | 206 XSL | 0 commun
Culture, 937 V.+ ADV.+ | 753 VER.+ ADV | 441 XSL | 2 communs

qui est de qui ? Nom Préposition Nom

Technologies, 73 N.+ PREP.+ N.+ | 38 NOM PRP NOM | 71 XSL | 2 communs
Sciences, 3838 N.+ PREP.+ N.+ | 2210 NOM PRP NOM | 3488 XSL |0 commun
Médias, 1384 N.+ PREP.+ N.+ | 665 NOM PRP NOM | 1079 XSL | 25 communs entre les deux treeTagger
Culture, 4552 N.+ PREP.+ N.+ | 1914 NOM PRP NOM | 2904 XSL | 5 communs entre les deux treeTagger

qui est avec ou à la place de qui Nom Coordination Nom

Technologies, 24 N.+ COO.+ N.+ | 0 NOM KON NOM | 1 XSL | 0 commun
Sciences, 898 N.+ COO.+ N.+ | 138 NOM KON NOM | 123 XSL | 35 communs entre les deux treeTagger
Médias, 349 N.+ COO.+ N.+ | 69 NOM KON NOM | 61 XSL | 25 communs entre les deux treeTagger
Culture, 1433 N.+ COO.+ N.+ | 327 NOM KON NOM | 315 XSL | 89 communs entre les deux treeTagger

le dernier triple Préposition Déterminant Nom avec une cible plus ou moins précise, les complements d'agents

Technologies, 53 PREP.+ DET.+ N.+ | 32 PRP DET NOM | 46 XSL | 3 communs entre les treeTagger
Sciences, 3280 PREP.+ DET.+ N.+ | 2243 PRP DET NOM | 2468 XSL | 78 communs entre les deux treeTagger
Médias, 1140 PREP.+ DET.+ N.+ | 782 PRP DET NOM | 913 XSL | 96 communs entre les deux treeTagger
Culture, 3649 PREP.+ DET.+ N.+ | 2437 PRP DET NOM | 2533 XSL | 7 communs

Graphes et concordanciers

Dans cette deuxième partie d'extraction on s'est concentré sur des motifs lexicaux précis pour en comprendre le contexte et leur signification à l'interieur du corpus. Des motifs qui dans un corpus couvrant toute une année peuvent nous montrer quels sujets concernent le présent et le futur du 2016 dans ces différents domaines. La recherche de ces motifs à travers le programme de graphe sur les patrons morphosyntaxiques extraits n'a pas apporté de résultats, ce qui peut être considéré un résultats en soi aussi, conséquemment on s'est concentré sur la recherche et l'affichage de ces motifs sur le total des rubriques, ce qui a cette fois apporté trop de résultats et difficilement analysables. Tout en restant un outils très intéressant, pour le but de notre extraction le programme de graphe a été mis d'à côté lui préferant une autre méthode. Une solution pour l'utiliser de façon pertinent aurait été peut-être celle de rechercher les motifs les plus fréquents à l'interieur de chaque patron et/ou de chaque rubrique pour s'en servir comme noyaux des graphes. Par contre de cette méthode se serait éloignée de notre but qui était d'avoir la vision du présent et du futur de chaque rubrique, étant donné que pour la rubrique Technologies parmi les motif les plus fréquents il y a achats, commerce, dollars, pour Sciences France, Paris, projet, personnes, pollution, pour Médias France, chaîne, groupe, journalistes, médias, grève et pour Culture Paris, matinale, choix, selection.
La méthode que l'on a préférée pour garder l'objectif de notre extraction est l'utilisation des feuilles de style XSLT, qui nous ont permis de construire des concordanciers et analyser d'une autre façon le contexte par rapport à la vision des graphes. Les concordanciers sont peut-être aussi puissants que les graphes, voire plus, mais ils apportent du bruit parfois, n'ayant pas la possibilité de rechercher un motif en inserant des barrières de mot (\b) cela nous a affiché par exemple confiné, définition, financement lorsqu'on avait comme motif fin. Ce bruit était présent uniquement dans ce motif et on a bien pris soin de le nettoyer. Les motifs recherchés comprennent :

aujourd'hui

Technologies concordancier vide
Sciences concordancier -»
Médias concordancier -»
Culture concordancier -»

avenir

début

fin

Technologies concordancier vide
Sciences concordancier -»
Médias concordancier -»
Culture concordancier -»

futur

Technologies concordancier vide
Sciences concordancier -»
Médias concordancier -»
Culture concordancier -»